In [1]:
# Зробіть summary нижчевказаного тексту використовуючи бібліотеки для NLP: nltk та SpaCy
# NLP — это технологии, которые помогают компьютерам понимать текст на нашем языке.
# Библиотеки nltk и SpaCy помогают компьютеру анализировать текст, находить важные части и создавать краткое изложение.

In [2]:
# Текст для обработки
text = 'The Orbiter Discovery, OV-103, is considered eligible for listing in the National Register of Historic Places (NRHP) in the context of the U.S. Space Shuttle Program (1969-2011) under Criterion A in the areas of Space Exploration and Transportation and under Criterion C in the area of Engineering. Because it has achieved significance within the past fifty years, Criteria Consideration G applies. Under Criterion A, Discovery is significant as the oldest of the three extant orbiter vehicles constructed for the Space Shuttle Program (SSP), the longest running American space program to date; she was the third of five orbiters built by NASA. Unlike the Mercury, Gemini, and Apollo programs, the SSP’s emphasis was on cost effectiveness and reusability, and eventually the construction of a space station. Including her maiden voyage (launched August 30, 1984), Discovery flew to space thirty-nine times, more than any of the other four orbiters; she was also the first orbiter to fly twenty missions. She had the honor of being chosen as the Return to Flight vehicle after both the Challenger and Columbia accidents. Discovery was the first shuttle to fly with the redesigned SRBs, a result of the Challenger accident, and the first shuttle to fly with the Phase II and Block I SSME. Discovery also carried the Hubble Space Telescope to orbit and performed two of the five servicing missions to the observatory. She flew the first and last dedicated Department of Defense (DoD) missions, as well as the first unclassified defense-related mission. In addition, Discovery was vital to the construction of the International Space Station (ISS); she flew thirteen of the thirty-seven total missions flown to the station by a U.S. Space Shuttle. She was the first orbiter to dock to the ISS, and the first to perform an exchange of a resident crew. Under Criterion C, Discovery is significant as a feat of engineering. According to Wayne Hale, a flight director from Johnson Space Center, the Space Shuttle orbiter represents a “huge technological leap from expendable rockets and capsules to a reusable, winged, hypersonic, cargo-carrying spacecraft.” Although her base structure followed a conventional aircraft design, she used advanced materials that both minimized her weight for cargo-carrying purposes and featured low thermal expansion ratios, which provided a stable base for her Thermal Protection System (TPS) materials. The Space Shuttle orbiter also featured the first reusable TPS; all previous spaceflight vehicles had a single-use, ablative heat shield. Other notable engineering achievements of the orbiter included the first reusable orbital propulsion system, and the first two-fault-tolerant Integrated Avionics System. As Hale stated, the Space Shuttle remains “the largest, fastest, winged hypersonic aircraft in history,” having regularly flown at twenty-five times the speed of sound.'

In [3]:
# Перш за все, ми повинні імпортувати необхідні бібліотеки. Для SpaCy це можна зробити за допомогою команди:import spacy
# Зауважте, що для NLTK можливо потрібно завантажити додаткові дані, наприклад, список стоп-слів або токенізатори.
# ⬇️

In [4]:
import spacy
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize, sent_tokenize
from string import punctuation

In [5]:
# Перш ніж почати роботу з SpaCy, необхідно завантажити потрібну мовну модель. Наприклад, для англійської мови ми можемо завантажити модель "en_core_web_sm":
# ⬇️

In [6]:
nlp = spacy.load('en_core_web_sm')

In [7]:
# Підготовка тексту
# Перш ніж почати створювати text summary, текст потрібно підготувати ⬇️.
# Це включає в себе видалення непотрібних символів, токенізацію (розбиття тексту на окремі слова або речення), видалення стоп-слів
# (слова, які не несуть суттєвої інформації) і, за необхідності, інші обробки тексту, такі як стемінг або лематизація.

In [8]:
# Этот код помогает понять, как компьютер может разделить предложение на слова.
# Берёт текст и разбивает его на отдельные слова => Сохраняет эти слова в список. => Показывает этот список.

# Мы используем библиотеку SpaCy, чтобы проанализировать текст.
# nlp - это функция, которая превращает текст в набор токенов (слова или части слов)
doc = nlp(text)
print(f'Doc object, which represents the analyzed text: {doc}')
# Мы проходим по каждому токену (словам) и сохраняем их в список
tokens = [token.text for token in doc]
# Выводим список токенов (слов) на экран
print(tokens)

Doc object, which represents the analyzed text: The Orbiter Discovery, OV-103, is considered eligible for listing in the National Register of Historic Places (NRHP) in the context of the U.S. Space Shuttle Program (1969-2011) under Criterion A in the areas of Space Exploration and Transportation and under Criterion C in the area of Engineering. Because it has achieved significance within the past fifty years, Criteria Consideration G applies. Under Criterion A, Discovery is significant as the oldest of the three extant orbiter vehicles constructed for the Space Shuttle Program (SSP), the longest running American space program to date; she was the third of five orbiters built by NASA. Unlike the Mercury, Gemini, and Apollo programs, the SSP’s emphasis was on cost effectiveness and reusability, and eventually the construction of a space station. Including her maiden voyage (launched August 30, 1984), Discovery flew to space thirty-nine times, more than any of the other four orbiters; she

In [9]:
# результат:⬆️
# The Orbiter Discovery, OV-103, is considered eligible for listing in the National.....
# код смог разделить предложение на отдельные слова и знаки препинания (запятые, точки).
# Каждый элемент стал отдельной частью, и теперь с ними можно работать по отдельности, например, для анализа или перевода.
# ['The', 'Orbiter', 'Discovery', ',', 'OV-103', ',', 'is', 'considered', 'eligible', 'for', 'listing', 'in', 'the', 'National', ... ]

In [10]:
# Этот код помогает скачать нужные данные, чтобы библиотека NLTK могла правильно работать с текстами.
# загружает список часто встречающихся слов, которые не нужно учитывать при анализе текста (например, "the", "is").
nltk.download('stopwords')
# загружает информацию, чтобы можно было разбивать текст на отдельные слова и предложения.
nltk.download('punkt')


[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [11]:
# ⬆️ Данные успешно скачены и распакованы. Теперь у нас есть всё, что нужно для работы со стоп-словами и для того, чтобы разбивать текст на слова и предложения.

In [12]:
# NLTK також надає розширені функції для обробки тексту. За допомогою методів NLTK, таких як word_tokenize, sent_tokenize або stopwords,
#  ми можемо отримати токенизовані слова та речення, а також список стоп-слів. І також не забуваємо про знаки пунктуації
# tokens = word_tokenize(text) # Разбиваем текст на отдельные слова (токены)
# sentences = sent_tokenize(text) # Разбиваем текст на предложения
# stop_words = set(stopwords.words('english')) # Получаем список стоп-слов (часто встречающиеся, но незначительные слова, например, "and", "the") для EN языка
# punctuation = punctuation + '\n' # Объединяем пунктуацию (знаки препинания) с символом новой строки ('\n')
# Этот код подготавливает текст для анализа: делит его на слова, предложения и готовит список слов, которые можно не учитывать при обработке.

In [13]:
tokens = word_tokenize(text)# Разбиваем текст на отдельные слова (токены)
print(f'Tokens: {tokens[:15]}')# Выводим первые 15 слов из текста
sentences = sent_tokenize(text)# Разбиваем текст на предложения
print(f'Sentences: {sentences}')# Выводим список предложений
stop_words = set(stopwords.words('english'))# Создаём набор стоп-слов (слова, которые не нужны для анализа)
print(f'Stop words: {stop_words}')# Выводим список стоп-слов

# Этот код помогает увидеть, как текст разбит на слова и предложения, а также показывает, какие слова можно пропустить, потому что они не важны для анализа

Tokens: ['The', 'Orbiter', 'Discovery', ',', 'OV-103', ',', 'is', 'considered', 'eligible', 'for', 'listing', 'in', 'the', 'National', 'Register']
Sentences: ['The Orbiter Discovery, OV-103, is considered eligible for listing in the National Register of Historic Places (NRHP) in the context of the U.S. Space Shuttle Program (1969-2011) under Criterion A in the areas of Space Exploration and Transportation and under Criterion C in the area of Engineering.', 'Because it has achieved significance within the past fifty years, Criteria Consideration G applies.', 'Under Criterion A, Discovery is significant as the oldest of the three extant orbiter vehicles constructed for the Space Shuttle Program (SSP), the longest running American space program to date; she was the third of five orbiters built by NASA.', 'Unlike the Mercury, Gemini, and Apollo programs, the SSP’s emphasis was on cost effectiveness and reusability, and eventually the construction of a space station.', 'Including her maiden

In [14]:
num_sentences = len(sentences)  # Считаем количество предложений
print(f'Number of sentences: {num_sentences}')  # Выводим количество предложений

Number of sentences: 16


In [15]:
# ⬆️
# Токены (Tokens): Текст успешно разбит на отдельные слова и знаки препинания, как запятые и точки. Это помогает нам работать с каждым словом по отдельности.
# Предложения (Sentences): Текст разбит на предложения. Мы можем работать с каждым предложением отдельно, что удобно для анализа длинных текстов.
# Стоп-слова (Stop words): Мы получили список "ненужных" слов, таких как "then", "about", "it". Эти слова часто пропускаются, чтобы анализировать только важные части текста.
# Общий вывод: Этот код подготовил текст для дальнейшей обработки: мы можем анализировать важные слова и предложения, игнорируя ненужные.

In [16]:
# Добавляем символ новой строки ('\n') в список знаков препинания. Это может быть нужно, чтобы знаки препинания и строки обрабатывались вместе.
punctuation = punctuation + '\n'
# Выводим обновлённый список знаков препинания на экран
print(punctuation)
# Этот код показывает, что к списку знаков препинания добавился символ новой строки. Это может помочь при работе с текстом, чтобы правильно разделять строки и знаки препинания.

!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~



In [17]:
# ⬇️ Також можна порахувати частоту появи тих чи інших слів у тексті(але варто пам'ятати, що це треба робити, вже виключивши усі знаки пунктуації)

In [18]:
# Создаём пустой словарь для хранения частоты каждого слова
word_frequencies = {}

# Проходим по каждому слову в тексте
for word in doc:
  # Пропускаем слова, которые являются стоп-словами
  if word.text.lower() not in stop_words:
    # Пропускаем слова, которые являются знаками препинания
    if word.text.lower() not in punctuation:
      # Если слово не встречалось ранее, добавляем его в словарь с частотой 1
      if word.text not in word_frequencies:
        word_frequencies[word.text] = 1
      # Если слово уже есть в словаре, увеличиваем его частоту на 1
      else:
        word_frequencies[word.text] += 1

# Выводим словарь частот слов
print(word_frequencies)


{'Orbiter': 1, 'Discovery': 7, 'OV-103': 1, 'considered': 1, 'eligible': 1, 'listing': 1, 'National': 1, 'Register': 1, 'Historic': 1, 'Places': 1, 'NRHP': 1, 'context': 1, 'U.S.': 2, 'Space': 10, 'Shuttle': 6, 'Program': 2, '1969': 1, '2011': 1, 'Criterion': 4, 'areas': 1, 'Exploration': 1, 'Transportation': 1, 'C': 2, 'area': 1, 'Engineering': 1, 'achieved': 1, 'significance': 1, 'within': 1, 'past': 1, 'fifty': 1, 'years': 1, 'Criteria': 1, 'Consideration': 1, 'G': 1, 'applies': 1, 'significant': 2, 'oldest': 1, 'three': 1, 'extant': 1, 'orbiter': 6, 'vehicles': 2, 'constructed': 1, 'SSP': 2, 'longest': 1, 'running': 1, 'American': 1, 'space': 3, 'program': 1, 'date': 1, 'third': 1, 'five': 3, 'orbiters': 2, 'built': 1, 'NASA': 1, 'Unlike': 1, 'Mercury': 1, 'Gemini': 1, 'Apollo': 1, 'programs': 1, '’s': 1, 'emphasis': 1, 'cost': 1, 'effectiveness': 1, 'reusability': 1, 'eventually': 1, 'construction': 2, 'station': 2, 'Including': 1, 'maiden': 1, 'voyage': 1, 'launched': 1, 'August'

In [19]:
max_frequnces = max(word_frequencies.values())
max_count_words = {k : v for k, v in word_frequencies.items() if v == max_frequnces}
print('The most frequest word:')
print(max_count_words)


for word in word_frequencies:
  word_frequencies[word] /= max_frequnces
print(word_frequencies)

The most frequest word:
{'Space': 10, 'first': 10}
{'Orbiter': 0.1, 'Discovery': 0.7, 'OV-103': 0.1, 'considered': 0.1, 'eligible': 0.1, 'listing': 0.1, 'National': 0.1, 'Register': 0.1, 'Historic': 0.1, 'Places': 0.1, 'NRHP': 0.1, 'context': 0.1, 'U.S.': 0.2, 'Space': 1.0, 'Shuttle': 0.6, 'Program': 0.2, '1969': 0.1, '2011': 0.1, 'Criterion': 0.4, 'areas': 0.1, 'Exploration': 0.1, 'Transportation': 0.1, 'C': 0.2, 'area': 0.1, 'Engineering': 0.1, 'achieved': 0.1, 'significance': 0.1, 'within': 0.1, 'past': 0.1, 'fifty': 0.1, 'years': 0.1, 'Criteria': 0.1, 'Consideration': 0.1, 'G': 0.1, 'applies': 0.1, 'significant': 0.2, 'oldest': 0.1, 'three': 0.1, 'extant': 0.1, 'orbiter': 0.6, 'vehicles': 0.2, 'constructed': 0.1, 'SSP': 0.2, 'longest': 0.1, 'running': 0.1, 'American': 0.1, 'space': 0.3, 'program': 0.1, 'date': 0.1, 'third': 0.1, 'five': 0.3, 'orbiters': 0.2, 'built': 0.1, 'NASA': 0.1, 'Unlike': 0.1, 'Mercury': 0.1, 'Gemini': 0.1, 'Apollo': 0.1, 'programs': 0.1, '’s': 0.1, 'emphasis

In [20]:
# Разбиваем текст на предложения
# Создаём список предложений из текста
sentence_tokens = list(doc.sents)
# Создаём пустой словарь для хранения оценок предложений
sentence_scores = {}

# Проходим по каждому предложению
for sent in sentence_tokens:
    # Инициализируем счетчик для каждого предложения
    sentence_scores[sent] = 0
    # Проходим по каждому слову в предложении
    for word in sent:
        if word.text.lower() in word_frequencies:
            # Если предложение ещё не оценивалось, добавляем его в словарь с оценкой
            if sent not in sentence_scores:
                sentence_scores[sent] = word_frequencies[word.text.lower()]
            # Если предложение уже есть в словаре, увеличиваем его оценку
            else:
                sentence_scores[sent] += word_frequencies[word.text.lower()]
        # if word.text.lower() in word_frequencies:
        #     # Если слово есть в word_frequencies, добавляем его значение к счетчику предложения
        #     sentence_scores[sent] += word_frequencies[word.text.lower()]

# Выводим предложения и их оценки
for sent, score in sentence_scores.items():
    print(f"Sentence: {sent}\nScore: {score}\n")

# Выводим количество предложений и их количество в словаре
print(f'Количество предложений в sentence_tokens: {len(sentence_tokens)}')
print(f'Количество записей в sentence_scores: {len(sentence_scores)}')

# Этот код оценивает каждое предложение в тексте по частоте встречаемости слов. Чем чаще слова встречаются в тексте, тем выше оценка предложения.
# Мы это делаем, чтобы определить важность или значимость каждого предложения в тексте.
# Если предложение содержит много часто встречающихся слов, это может означать, что оно более важное или информативное

# Резюмирование: Оценка предложений помогает выделить ключевые предложения для создания краткого резюме текста.
# Поиск информации: Помогает найти важные предложения, которые содержат основные идеи текста.
# Анализ текста: Улучшает понимание текста, выявляя его наиболее значимые части.

# Количество предложений в списке sentence_tokens может отличаться от количества ключей в словаре sentence_scores,
# если некоторые предложения не соответствуют условиям фильтрации в цикле for. Вот несколько возможных причин:
# Отсутствие слов в word_frequencies: Если предложения не содержат слов, которые есть в word_frequencies, они не будут добавлены в sentence_scores.
# Проблемы с регистром или пунктуацией: Если слова в предложениях имеют разные регистры или пункты, они могут не совпадать с ключами в word_frequencies.
# Ошибка в логике: Если код не обрабатывает предложения должным образом или если есть ошибки в логике добавления и обновления значений в sentence_scores.

Sentence: The Orbiter Discovery, OV-103, is considered eligible for listing in the National Register of Historic Places (NRHP) in the context of the U.S. Space Shuttle Program (1969-2011) under Criterion A in the areas of Space Exploration and Transportation and under Criterion C in the area of Engineering.
Score: 2.5000000000000004

Sentence: Because it has achieved significance within the past fifty years, Criteria Consideration G applies.
Score: 0.7

Sentence: Under Criterion A, Discovery is significant as the oldest of the three extant orbiter vehicles constructed for the Space Shuttle Program (SSP), the longest running American space program to date; she was the third of five orbiters built by NASA.
Score: 3.4000000000000004

Sentence: Unlike the Mercury, Gemini, and Apollo programs, the SSP’s emphasis was on cost effectiveness and reusability, and eventually the construction of a space station.
Score: 1.4

Sentence: Including her maiden voyage (launched August 30, 1984), Discover

In [21]:
# ⬆️ Этот результат показывает, как оценены предложения по их важности в тексте. Чем больше значение, тем более важное предложение.
# Например, предложение с самым высоким значением (4.7) имеет большую значимость по сравнению с другими.

In [22]:
# ⬇️ Разные способы разбивки текста: sent_tokenize и doc.sents могут использовать разные алгоритмы для разбиения текста на предложения.
# Например, один может учитывать определенные знаки препинания, такие как точки, вопросительные знаки и восклицательные знаки,
# в то время как другой может обрабатывать их по-другому.
# Спецсимволы и форматирование: В исходном тексте могут быть спецсимволы или форматирование, которые влияют на разбиение предложений.
# Например, лишние пробелы, символы новой строки или необычные знаки препинания могут создавать дополнительные "предложения".
# Обработка абзацев: В зависимости от того, как текст был разбит (например, с помощью метода sent_tokenize или библиотекой NLP),
# абзацы могут интерпретироваться по-разному. Возможно, что библиотека NLP считает некоторые абзацы отдельными предложениями.

In [23]:
from nltk.tokenize import sent_tokenize

# Разбиваем текст на предложения с помощью nltk
sentences_nltk = sent_tokenize(text)
print("Sentences using nltk:")  # Печатаем заголовок для предложений, найденных с помощью nltk
for i, sentence in enumerate(sentences_nltk, start=1):  # Перебираем предложения и нумеруем их
    print(f"{i}. {sentence}")  # Печатаем номер предложения и само предложение

# Разбиваем текст на предложения с помощью spaCy (или другой библиотеки NLP)
sentence_tokens_spacy = list(doc.sents)  # Преобразуем предложения из spaCy в список
print("\nSentences using spaCy:")  # Печатаем заголовок для предложений, найденных с помощью spaCy
for i, sentence in enumerate(sentence_tokens_spacy, start=1):  # Перебираем предложения и нумеруем их
    print(f"{i}. {sentence.text}")  # Печатаем номер предложения и само предложение
# Сравним, как разные библиотеки разбивают текст на предложения:

Sentences using nltk:
1. The Orbiter Discovery, OV-103, is considered eligible for listing in the National Register of Historic Places (NRHP) in the context of the U.S. Space Shuttle Program (1969-2011) under Criterion A in the areas of Space Exploration and Transportation and under Criterion C in the area of Engineering.
2. Because it has achieved significance within the past fifty years, Criteria Consideration G applies.
3. Under Criterion A, Discovery is significant as the oldest of the three extant orbiter vehicles constructed for the Space Shuttle Program (SSP), the longest running American space program to date; she was the third of five orbiters built by NASA.
4. Unlike the Mercury, Gemini, and Apollo programs, the SSP’s emphasis was on cost effectiveness and reusability, and eventually the construction of a space station.
5. Including her maiden voyage (launched August 30, 1984), Discovery flew to space thirty-nine times, more than any of the other four orbiters; she was also t

In [24]:
# Проверьте текст на наличие необычных символов или форматирования
print(f'Text preview: {text[:500]}')  # Выводим начало текста для проверки

# Вывод показывает начало текста, что полезно для быстрой проверки, как выглядит текст перед дальнейшей обработкой.
# Если начало текста выглядит правильно и не содержит ошибок, можно продолжать работу с ним.

Text preview: The Orbiter Discovery, OV-103, is considered eligible for listing in the National Register of Historic Places (NRHP) in the context of the U.S. Space Shuttle Program (1969-2011) under Criterion A in the areas of Space Exploration and Transportation and under Criterion C in the area of Engineering. Because it has achieved significance within the past fifty years, Criteria Consideration G applies. Under Criterion A, Discovery is significant as the oldest of the three extant orbiter vehicles constr


In [25]:
# Создаем множество предложений из nltk
set_nltk = set(sentences_nltk)
# Создаем множество предложений из spaCy
set_spacy = set(str(sent) for sent in sentence_tokens_spacy)

# Находим предложения, которые есть в nltk, но нет в spaCy
differences_nltk_spacy = set_nltk - set_spacy
print("Sentences in NLTK but not in spaCy:")
for sentence in differences_nltk_spacy:
    print(sentence) # выводим предложения, которые есть в NLTK, но нет в spaCy.

# Находим предложения, которые есть в spaCy, но нет в nltk
differences_spacy_nltk = set_spacy - set_nltk
print("\nSentences in spaCy but not in NLTK:")
for sentence in differences_spacy_nltk:
    print(sentence) # выводим предложения, которые есть в spaCy, но нет в NLTK.

# Этот код помогает увидеть, как разные библиотеки разбивают текст на предложения. Можно заметить:
# Какие предложения NLTK находит, но spaCy нет.
# Какие предложения spaCy находит, но NLTK нет.
# Это помогает понять, почему результаты могут отличаться, если используются разные инструменты для обработки текста.

Sentences in NLTK but not in spaCy:
According to Wayne Hale, a flight director from Johnson Space Center, the Space Shuttle orbiter represents a “huge technological leap from expendable rockets and capsules to a reusable, winged, hypersonic, cargo-carrying spacecraft.” Although her base structure followed a conventional aircraft design, she used advanced materials that both minimized her weight for cargo-carrying purposes and featured low thermal expansion ratios, which provided a stable base for her Thermal Protection System (TPS) materials.

Sentences in spaCy but not in NLTK:
According to Wayne Hale, a flight director from Johnson Space Center, the Space Shuttle orbiter represents a “huge technological leap from expendable rockets and capsules to a reusable, winged, hypersonic, cargo-carrying spacecraft.”
Although her base structure followed a conventional aircraft design, she used advanced materials that both minimized her weight for cargo-carrying purposes and featured low thermal

In [26]:
# ⬆️ NLTK и spaCy по-разному разбивают текст на предложения

In [27]:
# ⬆️⬇️
# Коли ми вже маємо підготовлений текст та використали SpaCy або NLTK для отримання необхідної інформації, ми можемо створити текстове резюме.
# Це можна зробити, наприклад, шляхом виділення найважливіших речень з тексту, враховуючи їх вагу або частоту вживання певних слів.

In [28]:
# ⬇️ Бібліотека heapq
# Бібліотека heapq є частиною стандартної бібліотеки Python і надає функціонал для роботи зі структурами даних під назвою heap.
# Один з імпортованих об’єктів у цій бібліотеці - nlargest - є функцією, яка дозволяє знаходити найбільші елементи з ітерабельного об’єкту.

In [29]:
# Импортируем функцию nlargest из модуля heapq, которая позволяет выбрать наибольшие элементы из списка.
from heapq import nlargest

In [30]:
# Функція `nlargest(n, iterable, key=None)`` приймає три аргументи:
  # • n - це кількість найбільших елементів, які ви хочете отримати
  # • iterable - це ітерабельний об’єкт, з якого ви хочете вибрати найбільші елементи
  # • key (необов’язковий) - це функція, яка визначає, за яким ключем відбувається порівняння елементів (наприклад, key=str.lower)
# Функція nlargest повертає список з n найбільших елементів з iterable. Ці елементи будуть впорядковані у порядку спадання.
# Якщо n більше довжини iterable, то функція поверне весь iterable у відсортованому порядку.
# Отже, імпортований from heapq import nlargest дозволяє використовувати функцію `nlargest`` для знаходження найбільших елементів з довільного ітерабельного об’єкту.

In [31]:
# ⬇️ У даному випадку, функція nlargest використовується для знаходження в select_length найбільших елементів зі словника sentence_scores.
# Ключі словника представляють речення, а значення - їхні оцінки або ваги. Аргумент key заданий як sentence_scores.get, що означає,
# що функція get використовується для порівняння елементів. У даному випадку, вона повертає значення (оцінку) для кожного речення, яке використовується
# як критерій для порівняння. Отже, змінна summary міститиме список select_length найкращих речень зі словника sentence_scores у порядку спадання оцінок.

In [32]:
select_length = int(len(sentence_tokens)) # Определяем количество предложений в тексте и сохраняем это число в переменную
print(f"Number of sentence {select_length}")
# Находим предложения с наибольшими оценками
# Используем функцию nlargest, чтобы найти select_length (то есть все) предложения с наибольшими
# оценками из словаря sentence_scores. Сортировка идет по значениям словаря, которые хранятся в sentence_scores.
summary = nlargest(select_length, sentence_scores, key = sentence_scores.get)

# Выводим каждое из выбранных предложений
for i in summary:
  print(i)

# Этот код выбирает все предложения с наивысшими оценками и выводит их.
# Или все предложения в порядке убывания их оценок - (select_length = int(len(sentence_tokens)))
# Если select_length меньше общего количества предложений, то будут выбраны только select_length наивысших оценок.
# код всегда выводит предложения в порядке убывания их оценок, когда select_length равно общему числу предложений.

Number of sentence 17
Including her maiden voyage (launched August 30, 1984), Discovery flew to space thirty-nine times, more than any of the other four orbiters; she was also the first orbiter to fly twenty missions.
Other notable engineering achievements of the orbiter included the first reusable orbital propulsion system, and the first two-fault-tolerant Integrated Avionics System.
According to Wayne Hale, a flight director from Johnson Space Center, the Space Shuttle orbiter represents a “huge technological leap from expendable rockets and capsules to a reusable, winged, hypersonic, cargo-carrying spacecraft.”
The Space Shuttle orbiter also featured the first reusable TPS; all previous spaceflight vehicles had a single-use, ablative heat shield.
She flew the first and last dedicated Department of Defense (DoD) missions, as well as the first unclassified defense-related mission.
Under Criterion A, Discovery is significant as the oldest of the three extant orbiter vehicles constructe

In [33]:
# Из этого задания можно сделать следующие выводы:

# Сравнение методов
  # Pазные библиотеки (NLTK и spaCy) могут по-разному разбирать текст на предложения.
  # Это может повлиять на то, какие предложения вы получаете и как их оцениваете.
# Ранжирование предложений
  # Используя оценки предложений, вы можете упорядочить их по важности. Это полезно для создания резюме текста или выделения ключевых предложений.
# Проблемы с форматированием и оценками
  # Разные способы разбиения текста на предложения могут приводить к разным результатам, что важно учитывать при анализе текста.
# Практическое применение
  # В реальных задачах такие методы могут быть использованы для выделения самых важных предложений в документах, создания резюме, анализа текстов и т.д.

# Применение:
  # Можно использовать для создания кратких резюме или для выделения ключевых частей текста.
  # Помогает понять, как разные инструменты могут влиять на разбиение и оценку текста.