## Алгоритм суммаризации
- Очистка текста.
- Токенизация текста.
- Поиск частоты встречаемости слов и самого популярного слова.
- Поиск взвешенной частоты встречаемости слов (Разделить частоту слова на количество повторений самого популярного слова).
- Заменить в предложениях слова на их взвешенную частоту и посчитать итоговый вес предложений.
- Отсортировать по весу предложения и выбрать первые n предложений.

### Импорт необходимых библиотек

In [None]:
import re
import nltk
import pandas as pd

### Очистка текста

In [None]:
def clean_text(text):
    patterns = [r"^[a-zA-Z]",
                r"\d{2}\.\d{2}\.\d{4}",
                r"[0-9]",
                r",",
                r"\s+"]
    for pattern in patterns:
        text = re.sub(pattern, ' ', str(text))
    return text.lower()

### Поиск частоты встречаемости слов

In [None]:
def search_frequencies(text):
    frequencies = {}
    for word in nltk.word_tokenize(text):
        if word not in frequencies.keys():
            frequencies[word] = 1
        else:
            frequencies[word] += 1
    return frequencies

### Поиск итогового веса каждого предложения

In [None]:
def search_sentences_scores(sentences_list, word_frequencies, sentence_length):
    sentence_scores = {}
    for sent in sentences_list:
        for word in nltk.word_tokenize(sent.lower()):
            if word in word_frequencies.keys():
                if len(sent.split(' ')) < sentence_length:
                    if sent not in sentence_scores.keys():
                        sentence_scores[sent] = word_frequencies[word]
                    else:
                        sentence_scores[sent] += word_frequencies[word]
    return sentence_scores

### Итоговая реализация

In [None]:
def summarize(text, sentence_length, number_sentences):
    prepared_text = clean_text(text)
    sl = nltk.sent_tokenize(text)
    wf = search_frequencies(prepared_text)
    sentence_scores = search_sentences_scores(sl, wf, sentence_length)
    mf = max(wf.values())
    for word in wf.keys():
        wf[word] = (wf[word]/mf)
    summary_sentences = heapq.nlargest(number_sentences,
                                       sentence_scores,
                                       key = sentence_scores.get)
    summary = ' '.join(summary_sentences)
    return summary