In [1]:
from sumy.parsers.plaintext import PlaintextParser
from sumy.nlp.tokenizers import Tokenizer
from sumy.summarizers.lsa import LsaSummarizer

from sumy.utils import get_stop_words

from IPython.display import Markdown, display

# Сумаризація тексту за допомогою [`sumy`](https://github.com/miso-belica/sumy)

1. [Sumy - Automatic text summarizer](https://github.com/miso-belica/sumy)
2. [How to Create a Text Summarization Tool with Sumy](https://reintech.io/blog/how-to-create-a-text-summarization-tool-with-sumy-tutorial-for-developers)


## Завантажуємо текст з файлу у змінну

In [2]:
with open("text_ua.txt", "r", encoding="utf-8") as file:
    text = file.read()

## Визначення функцій

In [3]:
def generate_summary(text, sentences_count=1, language="english"):
    parser = PlaintextParser.from_string(text, Tokenizer(language))

    summarizer = LsaSummarizer()
    summary = summarizer(parser.document, sentences_count=sentences_count)
    summary_list = [str(sentence) for sentence in summary]

    stop_words = get_stop_words(language)
    filtered_summary = " ".join(
        [word for word in summary_list[0].split() if word.lower() not in stop_words]
    )

    return filtered_summary

## Записуємо анотований текст до файлу

In [4]:
sentences_count = 6
filtered_summary = generate_summary(text, sentences_count, language="ukrainian")
with open("summary_ua_sumy.txt", "w", encoding="utf-8") as file:
    file.write(filtered_summary)

# Висновки

Отже, ми маємо [вихідний текст](./text_ua.txt):

In [5]:
display(Markdown(text))

Орбітальний корабель "Діскавері", OV-103, вважається таким, що має право на внесення до Національного реєстру історичних місць (NRHP) в контексті Програми космічних човників США (1969-2011) за Критерієм А в галузі космічних досліджень і транспорту та за Критерієм С в галузі інженерії. Оскільки вона досягла значущості протягом останніх п'ятдесяти років, застосовується Розгляд критерію G. Згідно з Критерієм А, "Діскавері" є важливим як найстаріший з трьох збережених орбітальних кораблів, побудованих для програми "Спейс Шаттл" (SSP), найдовшої американської космічної програми на сьогоднішній день; він був третім з п'яти орбітальних кораблів, побудованих НАСА. На відміну від програм "Меркурій", "Джеміні" та "Аполлон", основна увага в SSP приділялася економічній ефективності та багаторазовому використанню, а в перспективі - створенню космічної станції. Включаючи свій перший політ (запущений 30 серпня 1984 року), "Діскавері" здійснив тридцять дев'ять польотів у космос, більше, ніж будь-який з інших чотирьох орбітальних апаратів; він також став першим орбітальним апаратом, який здійснив двадцять місій. Вона мала честь бути обраною для повернення до польотів після аварій "Челленджера" і "Колумбії". "Діскавері" став першим шатлом, який здійснив політ з модернізованими SRB після аварії "Челленджера", і першим шатлом, який здійснив політ з SSME Фази II і Блоку I. "Діскавері" також доставив на орбіту космічний телескоп "Габбл" і здійснив дві з п'яти місій з обслуговування обсерваторії. Вона виконала першу і останню місії Міністерства оборони США, а також першу несекретну місію, пов'язану з обороною. Крім того, "Діскавері" відіграв важливу роль у будівництві Міжнародної космічної станції (МКС); він здійснив тринадцять з тридцяти семи польотів на станцію за допомогою американського космічного човника. Вона була першим орбітальним кораблем, який пристикувався до МКС, і першим, який здійснив обмін екіпажем, що проживає на станції. За критерієм С "Діскавері" є важливим як інженерний подвиг. За словами Вейна Хейла, керівника польотів Космічного центру імені Джонсона, орбітальний корабель "Спейс Шаттл" являє собою "величезний технологічний стрибок від одноразових ракет і капсул до багаторазового, крилатого, гіперзвукового, вантажного космічного корабля". Хоча його базова конструкція наслідує конструкцію звичайного літака, він використовує передові матеріали, які мінімізують його вагу для перевезення вантажу і мають низький коефіцієнт теплового розширення, що забезпечує стабільну основу для матеріалів системи теплового захисту (TPS). На орбітальному кораблі "Спейс Шаттл" також була встановлена перша багаторазова система TPS; всі попередні космічні кораблі мали одноразовий абляційний теплозахисний екран. Серед інших визначних інженерних досягнень орбітального корабля - перша багаторазова орбітальна рухова установка і перша стійка до двох відмов інтегрована система авіоніки. За словами Хейла, "Спейс Шаттл" залишається "найбільшим, найшвидшим, найкрилатішим гіперзвуковим літаком в історії", який регулярно літає зі швидкістю, що у двадцять п'ять разів перевищує швидкість звуку.

та [його анотацію](./summary_ua_sumy.txt):

In [6]:
display(Markdown(filtered_summary))

Включаючи свій перший політ (запущений 30 серпня 1984 року), "Діскавері" здійснив тридцять дев'ять польотів у космос, більше, ніж будь-який чотирьох орбітальних апаратів; став першим орбітальним апаратом, здійснив двадцять місій

In [7]:
print(f"Довжина вихідного тексту: {len(text)}")
print(f"Довжина анотації: {len(filtered_summary)}")

Довжина вихідного тексту: 3110
Довжина анотації: 228
