In [None]:
from textblob import TextBlob
from collections import Counter
import matplotlib.pyplot as plt
import seaborn as sns
import requests
import nltk

# Загружаем ресурс punkt для работы TextBlob
nltk.download('punkt')

# Скачиваем текст напрямую с сайта Project Gutenberg
url = 'https://www.gutenberg.org/files/514/514-0.txt'  # URL для книги "Little Women"
response = requests.get(url)

# Сохраняем текст в файл
with open('little_women.txt', 'w', encoding='utf-8') as file:
    file.write(response.text)

# Чтение текста из файла
with open('little_women.txt', 'r', encoding='utf-8') as file:
    text = file.read()

# Создаем объект TextBlob на основе текста
blob = TextBlob(text)

# 1. Разбиваем текст на предложения и слова
sentences = blob.sentences  # Разбиваем текст на предложения
words = blob.words          # Разбиваем текст на слова

# Выводим количество предложений и слов
print(f"Количество предложений: {len(sentences)}")
print(f"Количество слов: {len(words)}")

# 2. Анализ тональности текста
# Анализируем тональность всего текста
sentiment = blob.sentiment
print(f"Тональность текста (полярность, субъективность): {sentiment}")

# Анализируем тональность первых 5 предложений
for sentence in sentences[:5]:
    print(sentence)
    print(f"Тональность: {sentence.sentiment}")

# 3. Определение частей речи (POS-tagging)
# Определяем части речи для каждого слова
pos_tags = blob.tags
print(f"Части речи первых 20 слов: {pos_tags[:20]}")

# 4. Анализ частоты слов
# Приводим все слова к нижнему регистру и считаем частоту их появления
word_freq = Counter(blob.words.lower())  # Считаем частоту слов
common_words = word_freq.most_common(10)  # Находим 10 самых частых слов
print(f"10 самых частых слов: {common_words}")

# 5. Визуализация частоты слов
# Построим график самых частых слов
words, counts = zip(*common_words)  # Разделяем слова и их частоту для графика

plt.figure(figsize=(10, 6))
sns.barplot(x=list(words), y=list(counts))
plt.title('Топ 10 самых частых слов в "Little Women"')
plt.show()
