### Task: Automatically build abstracts of text documents.

Input: An array of texts in JSON format. Sample texts are at example_texts.json.

Output: An array of abstracts in JSON format (the order of abstracts corresponds to the order of texts in the input data).

The maximum size of each of the abstracts is 300 characters (including white space). If the size of the abstract exceeds the specified threshold, then only the first 300 characters will be evaluated. A trivial solution (the first 300 characters of the document) is allowed, but not welcome.

You can briefly describe the solution in the first line of the download file after the # character. The information will be useful to the authors of the course to gain an idea of the methods and approaches used.

Rating: ROUGE-2 - proximity to a set of manually compiled abstracts based on bigrams of words (value from 0 to 1).

Input can be found at dataset_43428_1.txt

Output is at outdataset_43428_1.txt

Solution description:

For task of making abstract i had used gensim.summarization module. Of course, after cleaning the data. 

For measuring ROUGE-2 metrics task i had used solution from this repository https://github.com/pltrdy/rouge/tree/master/.
The result gives us 3 type of measure scores for ROUGE-2 metrics: F-value, P-value and R-squared.

## Test part

In [1]:
import pandas as pd

df_jsexample = pd.read_json('example_texts.json')
df_jsexample

Unnamed: 0,0
0,Увидеть мысль\n\nЯпонским ученым удалось распо...
1,"Карбофос\n\nКарбофос ( O , O - Диметил - S - (..."
2,Киев идет на уступки : Яценюк передает власть ...
3,« Лужков . Итоги »\nКонец эры хозяйственника и...
4,... в ходе написания ходатайства : сделать его...


In [2]:
sample_text = df_jsexample[0][0]
sample_text

'Увидеть мысль\n\nЯпонским ученым удалось распознать изображение , увиденное человеком , сканируя его мозг .\n\nКак пишет Yomiuri , группе сотрудников отделения нейроинформатики Международного исследовательского института передовых средств коммуникации ( Киото , Япония ) удалось восстановить изображение , увиденное человеком , опираясь только на сканирование электрических сигналов мозга .\n\nВ ходе эксперимента исследователи продемонстрировали испытуемым серию из 440 различных картинок , представлявших собой произвольное сочетание темных и светлых пятен , на 100-пиксельном экране .\nВ процессе демонстрации измерялась активность в зрительной коре головного мозга с помощью функционального магниторезонансного сканера .\nПосле этого испытуемым были показаны буквы , составляющие слово neuron , и элементарные геометрические фигуры .\nНа основе сравнения предыдущей серии изображений и показаний сканера исследователям удалось правильно реконструировать новые изображения по сигналам мозговой ак

In [21]:
from gensim.summarization import summarize
from nltk import tokenize
import re

def simpleword_count(text):
    word_list = tokenize.word_tokenize(text)
    return len(word_list)
'''
Functions for Dataframe changing: start
'''
def word_count_df(row):
    text = row[0]
    word_list = tokenize.word_tokenize(text)
    return len(word_list)


def clean_text(row):
    text = row[0]
    text = text.lower()
    text = re.sub(r'\n|\r', ' ', text)
    text = re.sub(r' +', ' ', text)
    text = text.strip()
    return text

def summary_text(row):
    text = row['clean_text']
    sentences = tokenize.sent_tokenize(text)
    wc = simpleword_count(text)
    if len(sentences) == 1:
        return text
    if wc <= 1500:
        summarized_text = summarize(text, ratio=0.2, split=False)
    elif wc >= 1500:
        summarized_text = summarize(text, word_count=300, split=False)
    
    return summarized_text

def summary_word_count_df(row):
    text = row['summary_text']
    word_list = tokenize.word_tokenize(text)
    return len(word_list)

'''
Functions for Dataframe changing: end
'''

'\nFunctions for Dataframe changing: end\n'

In [4]:
df_jsexample['orig_word_count'] = df_jsexample.apply(lambda row: word_count_df(row), axis=1)

In [5]:
df_jsexample['clean_text'] = df_jsexample.apply(lambda row: clean_text(row), axis=1)

In [6]:
df_jsexample['summary_text'] = df_jsexample.apply(lambda row: summary_text(row), axis=1)

In [7]:
df_jsexample['sum_word_count'] = df_jsexample.apply(lambda row: summary_word_count_df(row), axis=1)

In [8]:
df_jsexample.head()

Unnamed: 0,0,orig_word_count,clean_text,summary_text,sum_word_count
0,Увидеть мысль\n\nЯпонским ученым удалось распо...,155,увидеть мысль японским ученым удалось распозна...,"как пишет yomiuri , группе сотрудников отделен...",34
1,"Карбофос\n\nКарбофос ( O , O - Диметил - S - (...",131,"карбофос карбофос ( o , o - диметил - s - ( 1,...",в настоящее время вытеснен более совершенными ...,12
2,Киев идет на уступки : Яценюк передает власть ...,282,киев идет на уступки : яценюк передает власть ...,киев идет на уступки : яценюк передает власть ...,38
3,« Лужков . Итоги »\nКонец эры хозяйственника и...,2772,« лужков . итоги » конец эры хозяйственника ил...,пока борис немцов подсчитывал разницу между ст...,279
4,... в ходе написания ходатайства : сделать его...,323,... в ходе написания ходатайства : сделать его...,"закончим , как и положено : &quot; на основани...",110


## ROUG metric

In [22]:
from rouge import Rouge 

def rouge_fill_df(row):
    hypothesis = row['summary_text']
    reference = row['ref_text']
    rouge = Rouge()
    scores = rouge.get_scores(hypothesis, reference)
    
    return scores[0]['rouge-2']


In [11]:
for st in df_jsexample['summary_text']:
    print('summary:',st,'\n')

summary: как пишет yomiuri , группе сотрудников отделения нейроинформатики международного исследовательского института передовых средств коммуникации ( киото , япония ) удалось восстановить изображение , увиденное человеком , опираясь только на сканирование электрических сигналов мозга . 

summary: в настоящее время вытеснен более совершенными и безопасными для человека пиретроидами . 

summary: киев идет на уступки : яценюк передает власть на местах советам украинские власти обещают сохранить двуязычие на востоке страны .
исполняющий обязанности главы кабинета министров украины арсений яценюк пошел на серьезные уступки участникам протеста на востоке страны . 

summary: пока борис немцов подсчитывал разницу между стоимостью строительства 4-го транспортного кольца и большого адронного коллайдера , юрий михайлович сообщил , что количество российских чиновников превышает 1 млн человек и в три с лишним раза превосходит по численности сухопутные войска рф .
убеждён , что с такими итогами ра

In [18]:
references = []
references.append("группе учённых удалось восстановить изображение , увиденное человеком , опираясь только на сканирование электрических сигналов мозга. На основе сравнения предыдущей серии изображений и показаний сканера исследователям удалось правильно реконструировать новые изображения по сигналам мозговой активности . Работа японских ученых — большой шаг на пути реализации идеи прямого человеко-машинного интерфейса .")
references.append("Карбофос — фосфорорганическое соединение , инсектицид широкого спектра действия , акарицид . Применялся против комаров , мух , клещей , клопов , паразитов , повреждающих фруктовые деревья , овощные и декоративные растения . В настоящее время вытеснен более совершенными и безопасными для человека пиретроидами . Препараты на основе карбофоса остаются одними из самых эффективных средств борьбы против постельных клопов , весьма слабо чувствительных к прочим инсектицидам .")
references.append("Исполняющий обязанности главы кабинета министров Украины Арсений Яценюк пошел на серьезные уступки участникам протеста на востоке страны .На переговорах с главой МВД Арсеном Аваковым и Ринатом Ахметовым в Донецке он предложил серьезно расширить полномочия местных органов власти . Глава правительства считает необходимым ликвидировать областные государственные администрации , назначаемые президентом Украины . По его мнению , управлять территориями на местах должны исполкомы , которые будут избираться Областными советами . Глава правительства пообещал не отменять закон Колесниченко - Кивалова , от 5 июня 2012 года , позволявший использовать региональные языки . Цель переговоров в Донецке - разрешить кризис в регионе .Областная администрация Донецка по-прежнему находится в руках людей , объявивших в понедельник 7 апреля о создании Донецкой народной республики .")
references.append("Опубликованный доклад Бориса Немцова « Лужков . Итоги » вызвал немалый шум среди общественности . Мэр города Москвы сделал заявление о том , что одной из важнейших задач в деле модернизации России должно стать сокращение чиновничьего аппарата . Леонид Городин в liberalizm : Дело не в том , чтобы демонстративно наказывать « негодяя » , а в том , чтобы менять систему . Лужков ― производное люмпенов . Это мэр люмпенов . нормальным гражданам не нужен Лужков .")
references.append("в ходе написания ходатайства : сделать его по образцу следственных постановлений из УПК . То есть , после заголовка -- вводную : я , подозреваемый по уголовному делу № ... , Пупкин В . В . , рассмотрев материалы уголовного дела № ...  , потом по центру  установил  , а потом -- изложение ходатайства . и изложение просьбы : уголовное дело прекратить , все изъятое при обыске вернуть , и т . п . Следователя , который получит такое ходатайство , должен неминуемо хватить Кондратий . И еще , если ходатайство из СИЗО , там в конце обычно приписка : В моей прозьбе прошу не отказать . А еще читал где-то в Фидо товарища , который для переписок с Государством сделал себе угловой штамп  типа как в ГОСТе.")
print(simpleword_count(references[4]))
df_jsexample["ref_text"] = pd.Series(references)
df_jsexample

129


Unnamed: 0,0,orig_word_count,clean_text,summary_text,sum_word_count,ref_text
0,Увидеть мысль\n\nЯпонским ученым удалось распо...,155,увидеть мысль японским ученым удалось распозна...,"как пишет yomiuri , группе сотрудников отделен...",34,группе учённых удалось восстановить изображени...
1,"Карбофос\n\nКарбофос ( O , O - Диметил - S - (...",131,"карбофос карбофос ( o , o - диметил - s - ( 1,...",в настоящее время вытеснен более совершенными ...,12,"Карбофос — фосфорорганическое соединение , инс..."
2,Киев идет на уступки : Яценюк передает власть ...,282,киев идет на уступки : яценюк передает власть ...,киев идет на уступки : яценюк передает власть ...,38,Исполняющий обязанности главы кабинета министр...
3,« Лужков . Итоги »\nКонец эры хозяйственника и...,2772,« лужков . итоги » конец эры хозяйственника ил...,пока борис немцов подсчитывал разницу между ст...,279,Опубликованный доклад Бориса Немцова « Лужков ...
4,... в ходе написания ходатайства : сделать его...,323,... в ходе написания ходатайства : сделать его...,"закончим , как и положено : &quot; на основани...",110,в ходе написания ходатайства : сделать его по ...


In [23]:
df_jsexample['rouge 2'] = df_jsexample.apply(lambda row: rouge_fill_df(row), axis=1)
df_jsexample

Unnamed: 0,0,orig_word_count,clean_text,summary_text,sum_word_count,ref_text,rouge 2
0,Увидеть мысль\n\nЯпонским ученым удалось распо...,155,увидеть мысль японским ученым удалось распозна...,"как пишет yomiuri , группе сотрудников отделен...",34,группе учённых удалось восстановить изображени...,"{'f': 0.3291139192308925, 'p': 0.40625, 'r': 0..."
1,"Карбофос\n\nКарбофос ( O , O - Диметил - S - (...",131,"карбофос карбофос ( o , o - диметил - s - ( 1,...",в настоящее время вытеснен более совершенными ...,12,"Карбофос — фосфорорганическое соединение , инс...","{'f': 0.24999999760802472, 'p': 0.9, 'r': 0.14..."
2,Киев идет на уступки : Яценюк передает власть ...,282,киев идет на уступки : яценюк передает власть ...,киев идет на уступки : яценюк передает власть ...,38,Исполняющий обязанности главы кабинета министр...,"{'f': 0.16326530249433113, 'p': 0.342857142857..."
3,« Лужков . Итоги »\nКонец эры хозяйственника и...,2772,« лужков . итоги » конец эры хозяйственника ил...,пока борис немцов подсчитывал разницу между ст...,279,Опубликованный доклад Бориса Немцова « Лужков ...,"{'f': 0.029411761435986523, 'p': 0.01851851851..."
4,... в ходе написания ходатайства : сделать его...,323,... в ходе написания ходатайства : сделать его...,"закончим , как и положено : &quot; на основани...",110,в ходе написания ходатайства : сделать его по ...,"{'f': 0.14814814318287056, 'p': 0.161616161616..."


## Task part

In [9]:
df_dataset = pd.read_json('dataset_43428_1.txt')
df_dataset

Unnamed: 0,0
0,В Сербии арестован последний военный преступни...
1,АнтиПоттер\nРуководство по эксплуатации волшеб...
2,Авто по карману\nМихаил Прохоров собирается за...
3,В Казахстане состоялись выборы Президента\n\nВ...
4,В Москве подвели итоги Международной конференц...
...,...
195,13-я экспедиция МКС\n\n30 марта 2006 года с ко...
196,Пираты не признали вину\n\nВ американском горо...
197,Аллегория удачи .\nВизит Дмитрия Медведева в К...
198,Тем временем участницы панк-группы встретились...


In [10]:
df_dataset['orig_word_count'] = df_dataset.apply(lambda row: word_count_df(row), axis=1)

In [11]:
df_dataset['clean_text'] = df_dataset.apply(lambda row: clean_text(row), axis=1)

In [12]:
df_dataset['summary_text'] = df_dataset.apply(lambda row: summary_text(row), axis=1)

In [13]:
df_dataset['summary_word_count'] = df_dataset.apply(lambda row: summary_word_count_df(row), axis=1)

In [14]:
df_dataset

Unnamed: 0,0,orig_word_count,clean_text,summary_text,summary_word_count
0,В Сербии арестован последний военный преступни...,213,в сербии арестован последний военный преступни...,"за информацию , способную помочь в поимке гора...",50
1,АнтиПоттер\nРуководство по эксплуатации волшеб...,1918,антипоттер руководство по эксплуатации волшебн...,мне уже говорили мои молодые коллеги и просто ...,296
2,Авто по карману\nМихаил Прохоров собирается за...,110,авто по карману михаил прохоров собирается зан...,интересы у олигарха михаила прохорова самые ра...,18
3,В Казахстане состоялись выборы Президента\n\nВ...,376,в казахстане состоялись выборы президента в во...,по предварительным данным опроса избирателей н...,51
4,В Москве подвели итоги Международной конференц...,880,в москве подвели итоги международной конференц...,в москве подвели итоги международной конференц...,228
...,...,...,...,...,...
195,13-я экспедиция МКС\n\n30 марта 2006 года с ко...,576,13-я экспедиция мкс 30 марта 2006 года с космо...,13-я экспедиция мкс 30 марта 2006 года с космо...,162
196,Пираты не признали вину\n\nВ американском горо...,253,пираты не признали вину в американском городе ...,"кроме того , в руках вмс сша у берегов сомали ...",66
197,Аллегория удачи .\nВизит Дмитрия Медведева в К...,1136,аллегория удачи . визит дмитрия медведева в ки...,"трудно сказать , смирились ли сторонники викто...",344
198,Тем временем участницы панк-группы встретились...,519,тем временем участницы панк-группы встретились...,тем временем участницы панк-группы встретились...,100


In [15]:
df_dataset.to_json('gensim_output_dataset.json')

In [16]:
out_dataset = pd.DataFrame(df_dataset['summary_text'])
out_dataset

Unnamed: 0,summary_text
0,"за информацию , способную помочь в поимке гора..."
1,мне уже говорили мои молодые коллеги и просто ...
2,интересы у олигарха михаила прохорова самые ра...
3,по предварительным данным опроса избирателей н...
4,в москве подвели итоги международной конференц...
...,...
195,13-я экспедиция мкс 30 марта 2006 года с космо...
196,"кроме того , в руках вмс сша у берегов сомали ..."
197,"трудно сказать , смирились ли сторонники викто..."
198,тем временем участницы панк-группы встретились...


In [17]:

# output file can be read only with pandas. 
# example of encoded string ["\u0412 \u0421\u0435\u0440\u0431\u0438\u0438
# How to encode russian text properly in json?
#out_dataset.to_json('outdataset_43428_1.txt', orient='values')

In [18]:
#out_dataset.to_csv('outdataset_43428_1.csv',header=False, index=False)