In [6]:
import nltk
from nltk.corpus import stopwords, gutenberg, genesis, nps_chat
from nltk.tokenize import word_tokenize
from nltk.stem import PorterStemmer, WordNetLemmatizer
from nltk import pos_tag, FreqDist

# ------------------------------
# 1. Завантаження ресурсів
# ------------------------------
nltk.download('punkt')                        # Завантажуємо модель токенізації речень та слів
nltk.download('stopwords')                    # Завантажуємо список стоп-слів англійської мови
nltk.download('wordnet')                      # Завантажуємо WordNet для лематизації
nltk.download('omw-1.4')                      # Завантажуємо багатомовну підтримку для лематизації
nltk.download('averaged_perceptron_tagger')   # Завантажуємо POS-тегінг (частини мови)
nltk.download('gutenberg')                    # Завантажуємо корпус текстів Gutenberg
nltk.download('genesis')                      # Завантажуємо Genesis corpus
nltk.download('nps_chat')                     # Завантажуємо чат-корпус NPS Chat

# Для NLTK 3.9.1 + POS-тегінг:
nltk.download('averaged_perceptron_tagger_eng')  # Завантажуємо англійський POS-тегер (версія для NLTK 3.9.1)

# ------------------------------
# 2. Перегляд текстів із корпусів
# ------------------------------
text1_words = gutenberg.words('melville-moby_dick.txt')  # Завантажуємо слова з "Moby Dick"
text5_words = nps_chat.words()                           # Завантажуємо слова з чат-корпусу

print("Text1 (Moby Dick) перші 10 слів:", text1_words[:10])  # Виводимо перші 10 слів тексту 1
print("Text5 (Chat corpus) перші 10 слів:", text5_words[:10]) # Виводимо перші 10 слів тексту 5

# ------------------------------
# 3. Токенізація та стоп-слова
# ------------------------------
sample_text = ("Data science is a multi-disciplinary field that uses scientific "
               "methods, processes, algorithms and systems to extract knowledge and "
               "insights from structured and unstructured data.")  # Приклад тексту для аналізу

tokens = word_tokenize(sample_text)              # Розбиваємо текст на слова (токенізація)
stop_words = set(stopwords.words('english'))     # Отримуємо множину стоп-слів
filtered_tokens = [w for w in tokens if w.lower() not in stop_words]  # Видаляємо стоп-слова

print("\nТокени:", tokens)                       # Виводимо всі токени
print("\nТокени без стоп-слів:", filtered_tokens) # Виводимо токени без стоп-слів

# ------------------------------
# 4. Стемінг та лемматизація
# ------------------------------
stemmer = PorterStemmer()                        # Ініціалізація стемера (PorterStemmer)
lemmatizer = WordNetLemmatizer()                # Ініціалізація лематизатора (WordNet)

stems = [stemmer.stem(w) for w in filtered_tokens]       # Стемінг кожного слова
lemmas = [lemmatizer.lemmatize(w) for w in filtered_tokens] # Лематизація кожного слова

print("\nСтеми:", stems)                         # Виводимо результати стемінгу
print("\nЛеми:", lemmas)                         # Виводимо результати лематизації

# ------------------------------
# 5. Частини мови (POS tagging)
# ------------------------------
pos_tags = pos_tag(filtered_tokens)             # Присвоюємо кожному слову його частину мови
print("\nPOS-теги:", pos_tags)                  # Виводимо список слів із POS-тегами

# ------------------------------
# 6. Пошук довгих і частих слів у корпусах
# ------------------------------
# Довгі слова (>=15 букв) у Moby Dick
long_words_text1 = [w for w in text1_words if len(w) >= 15]  # Відбираємо слова довші або рівні 15 букв

# Часті слова у Chat corpus
freq_chat = FreqDist(text5_words)              # Обчислюємо частоти слів у чат-корпусі
most_common_chat = [w for w, _ in freq_chat.most_common(20)]  # Беремо 20 найчастіших слів

print("\nДовгі слова в text1:", long_words_text1[:20])       # Виводимо перші 20 довгих слів
print("\nЧасті слова в chat corpus:", most_common_chat)       # Виводимо 20 найчастіших слів


[nltk_data] Downloading package punkt to /home/jupyter/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     /home/jupyter/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to /home/jupyter/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw-1.4 to /home/jupyter/nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /home/jupyter/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package gutenberg to
[nltk_data]     /home/jupyter/nltk_data...
[nltk_data]   Package gutenberg is already up-to-date!
[nltk_data] Downloading package genesis to /home/jupyter/nltk_data...
[nltk_data]   Package genesis is already up-to-date!
[nltk_data] Downloading packag

Text1 (Moby Dick) перші 10 слів: ['[', 'Moby', 'Dick', 'by', 'Herman', 'Melville', '1851', ']', 'ETYMOLOGY', '.']
Text5 (Chat corpus) перші 10 слів: ['now', 'im', 'left', 'with', 'this', 'gay', 'name', ':P', 'PART', 'hey']

Токени: ['Data', 'science', 'is', 'a', 'multi-disciplinary', 'field', 'that', 'uses', 'scientific', 'methods', ',', 'processes', ',', 'algorithms', 'and', 'systems', 'to', 'extract', 'knowledge', 'and', 'insights', 'from', 'structured', 'and', 'unstructured', 'data', '.']

Токени без стоп-слів: ['Data', 'science', 'multi-disciplinary', 'field', 'uses', 'scientific', 'methods', ',', 'processes', ',', 'algorithms', 'systems', 'extract', 'knowledge', 'insights', 'structured', 'unstructured', 'data', '.']

Стеми: ['data', 'scienc', 'multi-disciplinari', 'field', 'use', 'scientif', 'method', ',', 'process', ',', 'algorithm', 'system', 'extract', 'knowledg', 'insight', 'structur', 'unstructur', 'data', '.']

Леми: ['Data', 'science', 'multi-disciplinary', 'field', 'us', '