<a href="https://colab.research.google.com/github/CodeHunterOfficial/A_PythonLibraries/blob/main/NV/Python_%D0%B8_%D0%B5%D0%B3%D0%BE_%D0%B1%D0%B8%D0%B1%D0%BB%D0%B8%D0%BE%D1%82%D0%B5%D0%BA%D0%B8_NLTK.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Библиотека NLTK

## Введение в NLTK

**NLTK (Natural Language Toolkit)** — это мощная библиотека Python для обработки естественного языка (NLP). Она предоставляет множество инструментов и ресурсов для работы с текстом, включая токенизацию, стемминг, лемматизацию, разбор синтаксиса и многие другие задачи. Библиотека особенно полезна для студентов, исследователей и разработчиков, работающих в области обработки текста и создания языковых моделей.

### Установка NLTK

Перед тем как приступить к практическим примерам, необходимо установить библиотеку NLTK. Для этого выполните следующую команду в терминале или командной строке:

In [None]:
!pip install nltk



После установки мы можем импортировать библиотеку и загрузить необходимые ресурсы.

### Импортирование NLTK и загрузка ресурсов

NLTK предоставляет множество корпусов и ресурсов, которые можно загрузить. Для начала мы импортируем библиотеку и загрузим набор данных.

In [None]:
import nltk
nltk.download('punkt')  # Для токенизации
nltk.download('wordnet')  # Для лемматизации
nltk.download('stopwords')  # Для работы со стоп-словами

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

## Токенизация

Токенизация — это процесс разделения текста на составные части, такие как слова или предложения. В NLTK это делается с помощью функции `nltk.word_tokenize()` для слов и `nltk.sent_tokenize()` для предложений.

### Пример токенизации

#### На русском

In [None]:
from nltk.tokenize import word_tokenize, sent_tokenize

nltk.download('punkt_tab')

text = "Привет, как дела? Сегодня прекрасный день!"
sentences = sent_tokenize(text, language='russian')
words = word_tokenize(text, language='russian')

print("Предложения:", sentences)
print("Слова:", words)

Предложения: ['Привет, как дела?', 'Сегодня прекрасный день!']
Слова: ['Привет', ',', 'как', 'дела', '?', 'Сегодня', 'прекрасный', 'день', '!']


[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


**Объяснение:** В данном примере мы разделяем текст на предложения и слова. Функция `sent_tokenize()` разбивает текст на предложения, а `word_tokenize()` — на отдельные слова.

#### In English

In [None]:
from nltk.tokenize import word_tokenize, sent_tokenize

text = "Hello, how are you? It's a beautiful day today!"
sentences = sent_tokenize(text)
words = word_tokenize(text)

print("Sentences:", sentences)
print("Words:", words)

Sentences: ['Hello, how are you?', "It's a beautiful day today!"]
Words: ['Hello', ',', 'how', 'are', 'you', '?', 'It', "'s", 'a', 'beautiful', 'day', 'today', '!']


**Explanation:** Here, we split the text into sentences and words using the same two functions. The output will show how the text is broken down.

## Стоп-слова

Стоп-слова — это слова, которые часто встречаются в тексте, но не несут значительной смысловой нагрузки (например, "и", "в", "на"). В NLTK можно получить список стоп-слов для различных языков.

### Пример работы со стоп-словами

#### На русском

In [None]:
from nltk.corpus import stopwords

nltk.download('stopwords')
stop_words = set(stopwords.words('russian'))

text = "Это простой пример текста с некоторыми стоп-словами."
words = word_tokenize(text, language='russian')
filtered_words = [word for word in words if word.lower() not in stop_words]

print("Исходные слова:", words)
print("Фильтрованные слова:", filtered_words)

Исходные слова: ['Это', 'простой', 'пример', 'текста', 'с', 'некоторыми', 'стоп-словами', '.']
Фильтрованные слова: ['Это', 'простой', 'пример', 'текста', 'некоторыми', 'стоп-словами', '.']


[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


**Объяснение:** Мы загружаем список стоп-слов на русском языке и используем его для фильтрации слов из нашего текста, оставляя только те, которые имеют смысл.

#### In English

In [None]:
from nltk.corpus import stopwords

nltk.download('stopwords')
stop_words = set(stopwords.words('english'))

text = "This is a simple example of a text with some stop words."
words = word_tokenize(text)
filtered_words = [word for word in words if word.lower() not in stop_words]

print("Original words:", words)
print("Filtered words:", filtered_words)

Original words: ['This', 'is', 'a', 'simple', 'example', 'of', 'a', 'text', 'with', 'some', 'stop', 'words', '.']
Filtered words: ['simple', 'example', 'text', 'stop', 'words', '.']


[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


**Explanation:** In this example, we load the list of stop words in English and filter them out from the text, keeping only meaningful words.

## Стемминг и Лемматизация

### Стемминг

Стемминг — это процесс уменьшения слов до их корня, что может быть полезно для анализа текстов. В NLTK есть несколько стеммеров, таких как `PorterStemmer`.

#### Пример стемминга

#### На русском

In [None]:
from nltk.stem import SnowballStemmer

stemmer = SnowballStemmer("russian")
words = ["бегать", "бегал", "бегущий", "бегу"]
stemmed_words = [stemmer.stem(word) for word in words]

print("Стеммированные слова:", stemmed_words)

Стеммированные слова: ['бега', 'бега', 'бегущ', 'бег']


**Объяснение:** Мы используем стеммер для русского языка, чтобы получить корни различных форм слова "бегать".

#### In English

In [None]:
from nltk.stem import PorterStemmer

stemmer = PorterStemmer()
words = ["running", "ran", "runner", "runs"]
stemmed_words = [stemmer.stem(word) for word in words]

print("Stemmed words:", stemmed_words)

Stemmed words: ['run', 'ran', 'runner', 'run']


**Explanation:** Here, we use the Porter stemmer to reduce different forms of the word "run" to their root.

### Лемматизация

Лемматизация — более сложный процесс, который приводит слово к его начальной форме (лемме). В NLTK это можно сделать с помощью `WordNetLemmatizer`.

#### Пример лемматизации

#### На русском

In [None]:
from nltk.stem import WordNetLemmatizer

nltk.download('omw-1.4')
lemmatizer = WordNetLemmatizer()
words = ["бегал", "бегущий", "бегу"]
lemmatized_words = [lemmatizer.lemmatize(word, pos='v') for word in words]

print("Лемматизированные слова:", lemmatized_words)

Лемматизированные слова: ['бегал', 'бегущий', 'бегу']


[nltk_data] Downloading package omw-1.4 to /root/nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!


**Объяснение:** Мы используем лемматизатор для получения начальной формы слова. Здесь мы указываем, что слова — это глаголы.

#### In English

In [None]:
from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()
words = ["running", "ran", "runner"]
lemmatized_words = [lemmatizer.lemmatize(word, pos='v') for word in words]

print("Lemmatized words:", lemmatized_words)

Lemmatized words: ['run', 'run', 'runner']


**Explanation:** In this example, we use the lemmatizer to convert different forms of the verb "run" into its base form.

## Часть речи (POS) Тегирование

Тегирование частей речи — это процесс обозначения слов в тексте их соответствующими частями речи (существительное, глагол и т. д.). NLTK предоставляет инструменты для этого.

### Пример POS-тегирования

#### На русском

In [None]:
nltk.download('averaged_perceptron_tagger')
nltk.download('cess_esp')

nltk.download('averaged_perceptron_tagger_eng')

text = "Сегодня солнечный день."
words = word_tokenize(text, language='russian')
tagged_words = nltk.pos_tag(words)

print("Тегированные слова:", tagged_words)

Тегированные слова: [('Сегодня', 'JJ'), ('солнечный', 'NNP'), ('день', 'NNP'), ('.', '.')]


[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package cess_esp to /root/nltk_data...
[nltk_data]   Package cess_esp is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger_eng to
[nltk_data]     /root/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger_eng is already up-to-
[nltk_data]       date!


**Объяснение:** Мы используем токенизацию для получения списка слов, а затем применяем тегирование частей речи для их обозначения.

#### In English

In [None]:
nltk.download('averaged_perceptron_tagger')

text = "Today is a sunny day."
words = word_tokenize(text)
tagged_words = nltk.pos_tag(words)

print("Tagged words:", tagged_words)

Tagged words: [('Today', 'NN'), ('is', 'VBZ'), ('a', 'DT'), ('sunny', 'JJ'), ('day', 'NN'), ('.', '.')]


[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


**Explanation:** We tokenize the text and then tag the words with their corresponding parts of speech.

Библиотека NLTK (Natural Language Toolkit) обладает множеством функций, выходящих далеко за рамки базовой обработки текста, такой как токенизация, стемминг или работа со стоп-словами. Рассмотрим дополнительные возможности NLTK, которые также могут быть полезны при решении задач обработки естественного языка.

### 1. **Работа с корпусами и текстовыми коллекциями**

NLTK содержит большой набор **корпусов** (коллекций текстов), которые можно использовать для обучения моделей, тестирования алгоритмов и экспериментов с обработкой текстов. Корпуса NLTK включают в себя книги, статьи, аннотации и даже примеры диалогов.

#### Пример работы с корпусом

In [None]:
from nltk.corpus import gutenberg

nltk.download('gutenberg')

# Загрузка текста "Гамлет" из корпуса
hamlet_text = gutenberg.raw('shakespeare-hamlet.txt')

# Вывод первых 500 символов
print(hamlet_text[:500])

[The Tragedie of Hamlet by William Shakespeare 1599]


Actus Primus. Scoena Prima.

Enter Barnardo and Francisco two Centinels.

  Barnardo. Who's there?
  Fran. Nay answer me: Stand & vnfold
your selfe

   Bar. Long liue the King

   Fran. Barnardo?
  Bar. He

   Fran. You come most carefully vpon your houre

   Bar. 'Tis now strook twelue, get thee to bed Francisco

   Fran. For this releefe much thankes: 'Tis bitter cold,
And I am sicke at heart

   Barn. Haue you had quiet Guard?
  Fran. Not


[nltk_data] Downloading package gutenberg to /root/nltk_data...
[nltk_data]   Package gutenberg is already up-to-date!


**Объяснение:** В этом примере мы используем корпус **Gutenberg**, чтобы получить текст "Гамлет" Уильяма Шекспира. Корпус NLTK содержит много классических текстов и полезен для анализа литературы или других текстов.

### 2. **N-граммы и моделирование текста**

**N-граммы** — это последовательности из N слов, которые используются для моделирования языка, анализа текста и построения языковых моделей. NLTK позволяет легко генерировать и анализировать такие последовательности.

#### Пример создания N-грамм

In [None]:
from nltk import ngrams

sentence = "Программирование на Python с использованием NLTK"
words = word_tokenize(sentence, language='russian')

# Генерация биграмм (2-грамм)
bigrams = list(ngrams(words, 2))

print("Биграммы:", bigrams)

Биграммы: [('Программирование', 'на'), ('на', 'Python'), ('Python', 'с'), ('с', 'использованием'), ('использованием', 'NLTK')]


**Объяснение:** В данном примере мы создаём биграммы — последовательности из двух слов. N-граммы полезны для задач предсказания текста, анализа коллокаций (часто встречающихся пар слов) и машинного перевода.

### 3. **Анализ коллокаций**

Коллокации — это часто встречающиеся сочетания слов, такие как "сильный дождь" или "зеленый свет". NLTK предоставляет механизмы для поиска таких комбинаций в тексте.

#### Пример анализа коллокаций

In [None]:
from nltk.collocations import BigramCollocationFinder
from nltk.metrics import BigramAssocMeasures

text = word_tokenize("NLTK is a leading platform for building Python programs to work with human language data.", language='english')

# Найдём часто встречающиеся биграммы
finder = BigramCollocationFinder.from_words(text)
collocations = finder.nbest(BigramAssocMeasures.likelihood_ratio, 5)

print("Коллокации:", collocations)

Коллокации: [('NLTK', 'is'), ('Python', 'programs'), ('a', 'leading'), ('building', 'Python'), ('data', '.')]


**Объяснение:** Мы используем `BigramCollocationFinder`, чтобы найти наиболее частотные биграммы в тексте. Анализ коллокаций полезен для улучшения качества текста и работы с лексическими моделями.

### 4. **Классификация текста**

NLTK содержит инструменты для классификации текста на основе машинного обучения. Это полезно для задач, таких как классификация тональности (например, положительный или отрицательный отзыв), классификация новостей и т.д. NLTK предоставляет несколько классификаторов, включая наивный байесовский классификатор.

#### Пример классификации текста

In [None]:
# from nltk import NaiveBayesClassifier
# from nltk.corpus import movie_reviews
# import random

# nltk.download('movie_reviews')

# # Подготовка данных
# documents = [(list(movie_reviews.words(fileid)), category)
#              for category in movie_reviews.categories()
#              for fileid in movie_reviews.fileids(category)]

# random.shuffle(documents)

# # Извлечение признаков
# def document_features(document):
#     words = set(document)
#     features = {}
#     for word in movie_reviews.words():
#         features[word] = (word in words)
#     return features

# # Подготовка тренировочных данных
# featuresets = [(document_features(d), c) for (d, c) in documents]
# train_set, test_set = featuresets[100:], featuresets[:100]

# # Обучение наивного байесовского классификатора
# classifier = NaiveBayesClassifier.train(train_set)

# # Тестирование классификатора
# accuracy = nltk.classify.accuracy(classifier, test_set)
# print(f"Точность классификации: {accuracy * 100:.2f}%")

**Объяснение:** Мы используем **наивный байесовский классификатор**, чтобы классифицировать отзывы о фильмах как положительные или отрицательные. NLTK позволяет легко строить модели классификации для различных задач анализа текста.

### 5. **Синтаксический анализ (Parsing)**

Синтаксический анализ (или разбор) используется для построения синтаксических деревьев, которые показывают структуру предложения. Это важно для задач глубинного анализа текста, таких как извлечение сущностей и отношение между частями предложения.

#### Пример синтаксического анализа

In [None]:
from nltk import CFG
from nltk import ChartParser

# Определяем контекстно-свободную грамматику
grammar = CFG.fromstring("""
  S -> NP VP
  NP -> Det N
  VP -> V NP
  Det -> 'the'
  N -> 'cat' | 'dog'
  V -> 'chased' | 'saw'
""")

# Создаём синтаксический парсер
parser = ChartParser(grammar)

# Пример предложения
sentence = ['the', 'cat', 'chased', 'the', 'dog']

# Анализируем предложение
for tree in parser.parse(sentence):
    print(tree)
    tree.pretty_print()

(S (NP (Det the) (N cat)) (VP (V chased) (NP (Det the) (N dog))))
              S               
      ________|_____           
     |              VP        
     |         _____|___       
     NP       |         NP    
  ___|___     |      ___|___   
Det      N    V    Det      N 
 |       |    |     |       |  
the     cat chased the     dog



**Объяснение:** Мы определяем простую контекстно-свободную грамматику (CFG) и используем её для построения синтаксического дерева для предложения "the cat chased the dog". Это полезно для глубокого синтаксического анализа и обработки сложных предложений.

### 6. **Извлечение именованных сущностей (NER)**

Извлечение именованных сущностей (Named Entity Recognition, NER) — это задача, направленная на нахождение и классификацию сущностей, таких как имена людей, места, организации и т.д. NLTK предоставляет средства для выполнения этой задачи с помощью обученных моделей.

#### Пример извлечения именованных сущностей

In [None]:
from nltk import ne_chunk, pos_tag, word_tokenize

nltk.download('maxent_ne_chunker_tab')
nltk.download('words')

sentence = "Apple is looking at buying U.K. startup for $1 billion."
words = word_tokenize(sentence)
pos_tags = pos_tag(words)

# Извлечение именованных сущностей
entities = ne_chunk(pos_tags)
print(entities)

[nltk_data] Downloading package maxent_ne_chunker_tab to
[nltk_data]     /root/nltk_data...
[nltk_data]   Package maxent_ne_chunker_tab is already up-to-date!
[nltk_data] Downloading package words to /root/nltk_data...
[nltk_data]   Package words is already up-to-date!


(S
  (GPE Apple/NNP)
  is/VBZ
  looking/VBG
  at/IN
  buying/VBG
  U.K./NNP
  startup/NN
  for/IN
  $/$
  1/CD
  billion/CD
  ./.)


**Объяснение:** Мы используем функцию `ne_chunk()`, чтобы извлечь именованные сущности из предложения. Этот метод полезен для задач анализа новостных статей, бизнес-аналитики и других текстов, где важно выделить ключевые объекты.

### 7. **Тематическое моделирование (Topic Modeling)**

Тематическое моделирование — это задача, направленная на выявление тем, к которым относится набор документов. NLTK можно использовать для таких задач в сочетании с библиотеками вроде `gensim`.

#### Пример тематического моделирования с NLTK

In [None]:
from nltk.corpus import reuters
from gensim import corpora, models

nltk.download('reuters')

# Подготовка данных
documents = [list(reuters.words(fileid)) for fileid in reuters.fileids()]

# Создание словаря
dictionary = corpora.Dictionary(documents)

# Создание мешка слов (Bag of Words)
corpus = [dictionary.doc2bow(doc) for doc in documents]

# Обучение модели LDA (Latent Dirichlet Allocation)
lda_model = models.LdaModel(corpus, num_topics=10, id2word=dictionary, passes=15)

# Вывод тем
topics = lda_model.print_topics(num_words=5)
for topic in topics:
    print(topic)

[nltk_data] Downloading package reuters to /root/nltk_data...


(0, '0.108*"," + 0.040*"." + 0.030*"000" + 0.027*"tonnes" + 0.021*"of"')
(1, '0.098*"," + 0.070*"vs" + 0.055*"." + 0.042*"mln" + 0.037*"000"')
(2, '0.194*"." + 0.054*"mln" + 0.036*"billion" + 0.032*"1" + 0.027*"-"')
(3, '0.052*"the" + 0.044*"." + 0.029*"," + 0.025*"to" + 0.019*"of"')
(4, '0.029*"TO" + 0.022*"." + 0.020*"DLRS" + 0.020*"MLN" + 0.020*"SAYS"')
(5, '0.050*"." + 0.044*"the" + 0.041*"," + 0.039*"in" + 0.027*"to"')
(6, '0.070*"." + 0.034*"the" + 0.033*"pct" + 0.029*"in" + 0.026*","')
(7, '0.056*"cts" + 0.033*"April" + 0.027*">" + 0.027*";" + 0.027*"&"')
(8, '0.047*"." + 0.036*"the" + 0.035*"," + 0.033*"of" + 0.025*"said"')
(9, '0.053*"the" + 0.049*"." + 0.031*"," + 0.031*"to" + 0.022*"of"')


**Объяснение:** Мы используем корпус Reuters для построения модели LDA, которая выделяет 10 тем в текстах. Тематическое моделирование полезно для анализа больших объемов данных, таких как новости, статьи или форумы.

### Заключение

NLTK — это мощная и гибкая библиотека, которая поддерживает широкий спектр задач в области обработки естественного языка (NLP). Мы рассмотрели множество дополнительных возможностей NLTK, таких как работа с корпусами, анализ коллокаций, классификация текста, синтаксический анализ, извлечение именованных сущностей и тематическое моделирование.

# Домашка

1. Фильтрация стоп-слов: Создайте функцию, которая удаляет стоп-слова из заданного текста.

2. Работа с корпусами: Загрузите текст из корпуса Gutenberg и выведите первые 500 символов.

 3. Сгенерировать биграмы для какого-нибудь татарского текста *

### Вопросы для самопроверки

1. Что такое NLTK и для чего она используется?

2. Как установить библиотеку NLTK и какие ресурсы необходимо загрузить для начала работы?

3. Что такое токенизация и какие функции NLTK используются для этого?

4. Как можно фильтровать стоп-слова в тексте с помощью NLTK?

5. В чем разница между стеммингом и лемматизацией?

6. Какой стеммер используется в NLTK для русского языка?

7. Как выполнить POS-тегирование в NLTK и что такое POS?

8. Что такое корпус в NLTK и как его можно использовать?

9. Как создать биграммы из текста с помощью NLTK?

10. Что такое коллокации и как их можно найти с помощью NLTK?

11. Как работает наивный байесовский классификатор в NLTK?

12. Что такое синтаксический анализ и как его реализовать с помощью NLTK?

13. Как извлечь именованные сущности из текста с использованием NLTK?

14. Что такое тематическое моделирование и как его можно реализовать с помощью NLTK?

15. Как можно визуализировать частоту слов с помощью Matplotlib?

16. Какой метод можно использовать для обработки многозначных слов в NLTK?

17. Как создать свою собственную функцию для извлечения признаков из текста?

18. Что такое тематическое моделирование и как оно помогает в анализе текстов?

19. Как можно использовать NLTK для создания чат-бота?

20. Какие основные шаги нужно выполнить для анализа новостей с использованием NLTK?


## Задачи дя самостоятеьной работы


1. **Установка NLTK**: Установите библиотеку NLTK и загрузите необходимые ресурсы (punkt, wordnet, stopwords).

2. **Токенизация**: Напишите программу, которая разбивает текст на предложения и слова на русском и английском языках.

3. **Фильтрация стоп-слов**: Создайте функцию, которая удаляет стоп-слова из заданного текста.

4. **Стемминг**: Реализуйте программу, которая стеммирует список слов на русском языке с использованием SnowballStemmer.

5. **Лемматизация**: Напишите код для лемматизации списка слов на английском языке с использованием WordNetLemmatizer.

6. **POS-тегирование**: Создайте программу для тегирования частей речи в предложении на русском языке.

7. **Работа с корпусами**: Загрузите текст из корпуса Gutenberg и выведите первые 500 символов.

8. **Создание N-грамм**: Реализуйте функцию, которая генерирует биграммы из заданного предложения.

9. **Анализ коллокаций**: Напишите программу, которая находит наиболее частые биграммы в тексте.

10. **Классификация текста**: Используйте наивный байесовский классификатор для классификации отзывов о фильмах.

11. **Синтаксический анализ**: Создайте синтаксическое дерево для простого предложения с использованием контекстно-свободной грамматики.

12. **Извлечение именованных сущностей**: Реализуйте программу, которая извлекает именованные сущности из текста.

13. **Тематика текста**: Используйте тематическое моделирование для анализа набора документов с помощью LDA.

14. **Частотный анализ**: Напишите код, который подсчитывает частоту слов в тексте и выводит 10 самых частых.

15. **Сравнение стемминга и лемматизации**: Сравните результаты стемминга и лемматизации для одного и того же списка слов.

16. **Токенизация с использованием регулярных выражений**: Реализуйте токенизацию текста с использованием регулярных выражений.

17. **Создание собственного списка стоп-слов**: Создайте свой собственный список стоп-слов и используйте его для фильтрации текста.

18. **Анализ тональности**: Реализуйте анализ тональности текста, используя классификатор, обученный на отзывах.

19. **Построение графиков частоты слов**: Используйте Matplotlib для визуализации частоты слов в тексте.

20. **Обработка больших текстов**: Напишите программу, которая будет обрабатывать большие тексты, используя итераторы.

21. **Извлечение фраз**: Реализуйте функцию для извлечения фраз из текста на основе POS-тегирования.

22. **Работа с многозначными словами**: Напишите код, который обрабатывает многозначные слова и выбирает правильное значение в контексте.

23. **Создание собственных признаков для классификации**: Разработайте свою функцию для извлечения признаков из текста для классификации.

24. **Интерактивный анализ текста**: Создайте интерактивную программу, которая позволяет пользователю вводить текст для анализа.

25. **Сравнение различных стеммеров**: Сравните результаты стемминга с использованием разных стеммеров (Porter, Snowball).

26. **Обработка диалогов**: Реализуйте анализ диалогов, используя NLTK для извлечения участников и их реплик.

27. **Сложные синтаксические структуры**: Напишите код для анализа сложных синтаксических структур и их визуализации.

28. **Создание текстового корпуса**: Соберите собственный текстовый корпус и выполните анализ частоты слов.

29. **Разработка чат-бота**: Используйте NLTK для создания простого чат-бота, который понимает команды пользователя.

30. **Обработка и анализ новостей**: Напишите программу, которая извлекает и анализирует новости из RSS-каналов.
