### Використання NLTK

In [9]:
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize, sent_tokenize
from nltk.probability import FreqDist
from string import punctuation
from heapq import nlargest

# Завантажуємо необхідні пакети NLTK
nltk.download('punkt')
nltk.download('stopwords')

# Текст для обробки
text = """
The Orbiter Discovery, OV-103, is considered eligible for listing in the National Register of Historic Places (NRHP) in the context of the U.S. Space Shuttle Program (1969-2011) under Criterion A in the areas of Space Exploration and Transportation and under Criterion C in the area of Engineering. Because it has achieved significance within the past fifty years, Criteria Consideration G applies. Under Criterion A, Discovery is significant as the oldest of the three extant orbiter vehicles constructed for the Space Shuttle Program (SSP), the longest running American space program to date; she was the third of five orbiters built by NASA. Unlike the Mercury, Gemini, and Apollo programs, the SSP’s emphasis was on cost effectiveness and reusability, and eventually the construction of a space station. Including her maiden voyage (launched August 30, 1984), Discovery flew to space thirty-nine times, more than any of the other four orbiters; she was also the first orbiter to fly twenty missions. She had the honor of being chosen as the Return to Flight vehicle after both the Challenger and Columbia accidents. Discovery was the first shuttle to fly with the redesigned SRBs, a result of the Challenger accident, and the first shuttle to fly with the Phase II and Block I SSME. Discovery also carried the Hubble Space Telescope to orbit and performed two of the five servicing missions to the observatory. She flew the first and last dedicated Department of Defense (DoD) missions, as well as the first unclassified defense-related mission. In addition, Discovery was vital to the construction of the International Space Station (ISS); she flew thirteen of the thirty-seven total missions flown to the station by a U.S. Space Shuttle. She was the first orbiter to dock to the ISS, and the first to perform an exchange of a resident crew. Under Criterion C, Discovery is significant as a feat of engineering. According to Wayne Hale, a flight director from Johnson Space Center, the Space Shuttle orbiter represents a “huge technological leap from expendable rockets and capsules to a reusable, winged, hypersonic, cargo-carrying spacecraft.” Although her base structure followed a conventional aircraft design, she used advanced materials that both minimized her weight for cargo-carrying purposes and featured low thermal expansion ratios, which provided a stable base for her Thermal Protection System (TPS) materials. The Space Shuttle orbiter also featured the first reusable TPS; all previous spaceflight vehicles had a single-use, ablative heat shield. Other notable engineering achievements of the orbiter included the first reusable orbital propulsion system, and the first two-fault-tolerant Integrated Avionics System. As Hale stated, the Space Shuttle remains “the largest, fastest, winged hypersonic aircraft in history,” having regularly flown at twenty-five times the speed of sound.
"""

# Токенізація тексту на речення
sentences = sent_tokenize(text)

# Токенізація кожного речення на слова та видалення стоп-слів і знаків пунктуації
stop_words = set(stopwords.words('english') + list(punctuation))
word_tokens = [word_tokenize(sentence.lower()) for sentence in sentences]
filtered_words = [[word for word in words if word not in stop_words] for words in word_tokens]

# Створення частотного розподілу слів
flat_filtered_words = [word for sublist in filtered_words for word in sublist]
fdist = FreqDist(flat_filtered_words)

# Ранжування речень на основі частоти слів, що в них містяться
sentence_ranking = defaultdict(int)
for i, sentence in enumerate(sentences):
    for word in word_tokenize(sentence.lower()):
        if word in fdist:
            sentence_ranking[i] += fdist[word]

# Вибір топ N речень
N = 5
top_sentences = nlargest(N, sentence_ranking, key=sentence_ranking.get)

# Створення резюме
nltk_summary = ' '.join([sentences[i] for i in top_sentences])
print("NLTK Summary:")
print(nltk_summary)


NLTK Summary:
According to Wayne Hale, a flight director from Johnson Space Center, the Space Shuttle orbiter represents a “huge technological leap from expendable rockets and capsules to a reusable, winged, hypersonic, cargo-carrying spacecraft.” Although her base structure followed a conventional aircraft design, she used advanced materials that both minimized her weight for cargo-carrying purposes and featured low thermal expansion ratios, which provided a stable base for her Thermal Protection System (TPS) materials. 
The Orbiter Discovery, OV-103, is considered eligible for listing in the National Register of Historic Places (NRHP) in the context of the U.S. Space Shuttle Program (1969-2011) under Criterion A in the areas of Space Exploration and Transportation and under Criterion C in the area of Engineering. Under Criterion A, Discovery is significant as the oldest of the three extant orbiter vehicles constructed for the Space Shuttle Program (SSP), the longest running American 

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\sikan\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\sikan\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


### Використання spaCy

In [10]:
import spacy
from collections import defaultdict

# Завантаження моделі spaCy
!python -m spacy download en_core_web_sm
nlp = spacy.load('en_core_web_sm')

# Створення документа spaCy
doc = nlp(text)

# Підготовка тексту
tokens = [token.text for token in doc]
stop_words = set(stopwords.words('english') + list(punctuation))

# Частотний розподіл слів
word_frequencies = {}
for word in doc:
    if word.text.lower() not in stop_words:
        if word.text.lower() not in word_frequencies:
            word_frequencies[word.text.lower()] = 1
        else:
            word_frequencies[word.text.lower()] += 1

# Оцінка ваги кожного речення
sentence_scores = {}
for sent in doc.sents:
    for word in sent:
        if word.text.lower() in word_frequencies:
            if sent not in sentence_scores:
                sentence_scores[sent] = word_frequencies[word.text.lower()]
            else:
                sentence_scores[sent] += word_frequencies[word.text.lower()]

# Вибір топ N речень
N = 5
top_n_sentences = nlargest(N, sentence_scores, key=sentence_scores.get)

# Створення резюме
spacy_summary = ' '.join([sent.text for sent in top_n_sentences])
print("spaCy Summary:")
print(spacy_summary)


Collecting en-core-web-sm==3.7.1
  Downloading https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.7.1/en_core_web_sm-3.7.1-py3-none-any.whl (12.8 MB)
     ---------------------------------------- 0.0/12.8 MB ? eta -:--:--
     --------------------------------------- 0.0/12.8 MB 653.6 kB/s eta 0:00:20
     ---------------------------------------- 0.1/12.8 MB 1.1 MB/s eta 0:00:12
     ---------------------------------------- 0.2/12.8 MB 1.1 MB/s eta 0:00:12
      --------------------------------------- 0.3/12.8 MB 1.4 MB/s eta 0:00:09
      --------------------------------------- 0.3/12.8 MB 1.5 MB/s eta 0:00:09
      --------------------------------------- 0.3/12.8 MB 1.5 MB/s eta 0:00:09
     - -------------------------------------- 0.5/12.8 MB 1.6 MB/s eta 0:00:08
     - -------------------------------------- 0.6/12.8 MB 1.7 MB/s eta 0:00:08
     - -------------------------------------- 0.6/12.8 MB 1.7 MB/s eta 0:00:08
     -- --------------------------------

### Результат

In [11]:
# Print the summaries
print("NLTK Summary:")
print(nltk_summary)
print("\nspaCy Summary:")
print(spacy_summary)


NLTK Summary:
According to Wayne Hale, a flight director from Johnson Space Center, the Space Shuttle orbiter represents a “huge technological leap from expendable rockets and capsules to a reusable, winged, hypersonic, cargo-carrying spacecraft.” Although her base structure followed a conventional aircraft design, she used advanced materials that both minimized her weight for cargo-carrying purposes and featured low thermal expansion ratios, which provided a stable base for her Thermal Protection System (TPS) materials. 
The Orbiter Discovery, OV-103, is considered eligible for listing in the National Register of Historic Places (NRHP) in the context of the U.S. Space Shuttle Program (1969-2011) under Criterion A in the areas of Space Exploration and Transportation and under Criterion C in the area of Engineering. Under Criterion A, Discovery is significant as the oldest of the three extant orbiter vehicles constructed for the Space Shuttle Program (SSP), the longest running American 

### Висновки щодо використання бібліотек NLTK та spaCy для текстового резюме

#### NLTK:

- Токенізація:
    - NLTK добре справляється з токенізацією тексту на слова та речення. Це важливо для подальшого аналізу тексту.
- Стоп-слова: 
    - NLTK надає зручний інструментарій для роботи зі стоп-словами, що дозволяє ефективно фільтрувати несуттєві слова.
- Частотний аналіз: 
    - Можливість легко обчислювати частоту слів, що допомагає у визначенні важливих речень.
- Вибір найважливіших речень:
    - Використання функції nlargest з бібліотеки heapq дозволяє виділити найбільш значущі речення на основі їх ваги.

#### spaCy:

- Модель NLP:
    - spaCy надає потужні мовні моделі, які забезпечують високоточну токенізацію та лематизацію.
- Простіша інтеграція: 
    - spaCy пропонує більш інтегрований підхід до обробки тексту, де більшість операцій можна виконати в рамках одного документа.
- Лематизація і POS-тегування:
    - Лематизація (приведення слів до їх базових форм) та частиномовне тегування (визначення частин мови для кожного слова) є важливими для глибшого розуміння тексту.
- Швидкість:
    - spaCy зазвичай швидший при обробці великих обсягів тексту завдяки оптимізованим алгоритмам.

#### Порівняння та рекомендації
- Точність та швидкість:

    - SpaCy зазвичай пропонує кращу точність та швидкість завдяки своїм оптимізованим алгоритмам і вбудованим мовним моделям.

- Легкість використання:

    - NLTK більш гнучкий та налаштовуваний, але потребує більше коду для виконання різних задач NLP.
SpaCy пропонує більш спрощений інтерфейс для виконання багатьох стандартних завдань NLP.

- Вибір залежно від задачі:

    - Для завдань, що потребують детальної налаштування або роботи з різними мовами, NLTK може бути кращим вибором.
    - Для швидкої та ефективної обробки англомовного тексту, spaCy може бути більш зручним завдяки своїм вбудованим моделям.