# Цель работы #

Изучить лексические паттерны, встречающиеся в текстах поэм А. Блока

# Исследовательский вопрос #

Какие лексические паттерны являются наиболее часто встречающимися в поэмах Блока?

# Сбор необходимых данных #

Данные взяты с сайта https://www.kaggle.com/datasets/d0rj3228/russian-literature

Russian literature -> poems -> Blok

Перед загрузкой текстов я вручную удалила из них предисловия и оглавления, работая в обычном редакторе .txt

In [None]:
import os

In [None]:
directory = '/Users/mac/files/проект_питон/тексты' # путь к папке
all_files = os.listdir(directory)
texts_list = []
for text in all_files:
    print(f'Название файла: {text}')
    with open(os.path.join(directory, text), 'r') as file:
        file_text = file.read()
        texts_list.append(file_text)

Название файла: Корреспонденция Бальмонта из Мексики.txt
Название файла: Шуточные стихи и сценки.txt
Название файла: Стихотворения. Книга первая (1898-1904).txt
Название файла: Соловьиный сад.txt
Название файла: Двенадцать.txt
Название файла: Стихотворения. Книга вторая (1904-1908).txt
Название файла: Стихотворения. Книга третья (1907-1916).txt
Название файла: Возмездие.txt
Название файла: Скифы.txt
Название файла: Стихотворения 1897-1903 гг, не вошедшие в основное собрание.txt


# Предобработка текстовых данных #

В коде ниже я применяю токенизацию по словам, фильтрацию по русским стоп-словам и лемматизацию. Также я создаю биграммы.

In [None]:
import string
from nltk.corpus import stopwords
from nltk import PorterStemmer

In [None]:
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords

In [None]:
import nltk

In [None]:
nltk.download('punkt_tab')
nltk.download('wordnet')
nltk.download('stopwords')

[nltk_data] Downloading package punkt_tab to
[nltk_data]     /Users/elizavetakuznecenkova/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     /Users/elizavetakuznecenkova/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/elizavetakuznecenkova/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [None]:
from nltk.stem import WordNetLemmatizer

In [None]:
stopwords = stopwords.words('russian')

def process(text):
    # lowercase it
    text = text.lower()

    # remove punctuation
    clean_string = []
    for s in text:
        if s not in string.punctuation:
          clean_string.append(s)

    text = ''.join(clean_string)

    # remove stopwords

    str_without_stopwords = []
    tokenized_text = word_tokenize(text, language='russian')
    for word in tokenized_text:
        if word not in list(stopwords):
            str_without_stopwords.append(word)

    # lemmatizing

    lemmatized_text = []

    lemmatizer = WordNetLemmatizer()

    for word in str_without_stopwords:
        lemmatized_text.append(lemmatizer.lemmatize(word))

    return lemmatized_text

In [None]:
new_corpus = []

for text in texts_list:
    new_corpus.append(process(text))

In [None]:
print(list(texts_list)[0])
new_corpus[0]



             Я бандит, я бандит!
             От меня давно смердит!
             Подавая с ядом склянку,
             Мне сказала Мексиканка:
                       -- У тебя печальный вид:
                       -- Верно, ты ходил в Пампасы --
             Загрязненные лампасы --
                                 Стыд!
             Увлеченный, упоенный, обнаженный, совлеченный
                       Относительно одежд,1
             Я искал других надежд,
                                 Озираясь,
                                 Упиваясь,
             С Мексиканкой обнимаясь,
             Голый -- голый -- и веселый
                       Мексиканские глаголы
                                 Воспевал,
                       Мексиканские подолы
                                 Целовал,
                       Взор метал
             Из-под пьяных, красных, страстных,
             Воспаленных и прекрасных
                                 Вежд...
             Сдвинул на ухо сомбреро,
 

['бандит',
 'бандит',
 'давно',
 'смердит',
 'подавая',
 'ядом',
 'склянку',
 'сказала',
 'мексиканка',
 'печальный',
 'вид',
 'верно',
 'ходил',
 'пампасы',
 'загрязненные',
 'лампасы',
 'стыд',
 'увлеченный',
 'упоенный',
 'обнаженный',
 'совлеченный',
 'относительно',
 'одежд1',
 'искал',
 'других',
 'надежд',
 'озираясь',
 'упиваясь',
 'мексиканкой',
 'обнимаясь',
 'голый',
 'голый',
 'веселый',
 'мексиканские',
 'глаголы',
 'воспевал',
 'мексиканские',
 'подолы',
 'целовал',
 'взор',
 'метал',
 'изпод',
 'пьяных',
 'красных',
 'страстных',
 'воспаленных',
 'прекрасных',
 'вежд',
 'сдвинул',
 'ухо',
 'сомбреро',
 'думал',
 'встретить',
 'кабалеро',
 'стал',
 'искать',
 'рукоять',
 'сабли',
 'шпаги',
 'кинжала',
 'нашел',
 'вечно',
 'гол',
 'мексиканка',
 'убежала',
 'озаренный',
 'тихий',
 'дол',
 'подобная',
 'лианам',
 'выгибала',
 'красный',
 'стан',
 'девственным',
 'туманом',
 'вечно',
 'странным',
 'желанным',
 'зыбким',
 'липким',
 'красной',
 'кровью',
 'окропленный',
 'кар

# Регулярные выражения #

Во всех текстах из корпуса встречаются строки, содержащие годы написания стихотворений. Я собираюсь искать наиболее часто встречающиеся в тексте слова и словосочетания, поэтому с помощью регулярных выражений удалю все числа и цифры из текстов, чтобы избежать ошибок при анализе

In [None]:
import re

In [None]:
pattern = r"\d"

new_corpus1 = []
for elem in new_corpus:
    new_elem = [(re.sub(pattern, '', item)) for item in elem if re.sub(pattern, '', item).strip()]
    new_corpus1.append(new_elem)

In [None]:
new_corpus = new_corpus1

# Продолжим обработку текста #

In [None]:
import gensim
from gensim import corpora

In [None]:
dictionary = corpora.Dictionary(new_corpus)
corpus = [dictionary.doc2bow(doc) for doc in new_corpus]

In [None]:
tfidf = gensim.models.TfidfModel(corpus)
corpus_tfidf = tfidf[corpus]

# Тематическое моделирование #

В коде ниже я применяю LDA модель для реализации тематического моделирования.

In [None]:
!pip3 install pyLDAvis



In [None]:
lda_model = gensim.models.LdaMulticore(corpus_tfidf, num_topics=6, id2word=dictionary, passes=8, workers=2)

In [None]:
import pyLDAvis
import pyLDAvis.gensim

pyLDAvis.enable_notebook()

visualize = pyLDAvis.gensim.prepare(lda_model, corpus_tfidf, dictionary, mds="mmds", R=10)
visualize

# Частотный анализ частей речи #

In [None]:
pos_tags = []

for text in all_text:
    doc = nlp(text)
    for token in doc:
        pos_tags.append(token.pos_)

pos_counts = Counter(pos_tags)

In [None]:
for pos, count in pos_counts.items():
    print(f"{pos}: {count}")

NOUN: 33657
ADV: 2752
VERB: 17670
ADJ: 11805
PROPN: 483
DET: 2019
PRON: 1416
PART: 364
NUM: 281
SCONJ: 53
ADP: 271
INTJ: 65
X: 80
AUX: 133
CCONJ: 5
PUNCT: 1


# Рассчет описательных статистик #

In [None]:
import spacy

!python3 -m spacy download ru_core_news_sm

nlp = spacy.load("ru_core_news_sm")

Collecting ru-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/ru_core_news_sm-3.8.0/ru_core_news_sm-3.8.0-py3-none-any.whl (15.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m15.3/15.3 MB[0m [31m109.7 kB/s[0m eta [36m0:00:00[0m00:01[0m00:06[0m
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('ru_core_news_sm')


In [None]:
all_text = []
for text in new_corpus:
    for item in text:
        all_text.append(item)

In [None]:
adjectives = 0
total_words = 0
# for text in new_corpus:
for item in all_text:
    doc = nlp(item)
    for token in doc:
        if token.pos_ == "ADJ":
            adjectives += 1
        if token.is_alpha:
            total_words += 1

print(f"Доля прилагательных: {adjectives * 100 / total_words}")

Доля прилагательных: 16.61389064808951


In [None]:
nouns = 0
for item in all_text:
    doc = nlp(item)
    for token in doc:
        if token.pos_ == "NOUN":
            nouns += 1


print(f"Доля существительных: {100 * nouns / total_words}")

Доля существительных: 47.36753219337133


### Подсчет доли прилагательных и существительных можно было реализовать проще, используя результаты блока "частотный анализ частей речи", но я решила полностью проделать необходимую работу ###

In [None]:
!pip3 install plotly



In [None]:
from collections import Counter
import plotly.express as px

In [None]:
!pip3 install psutil



In [None]:
word_counts = Counter([word for text in new_corpus for word in text])
word_data = word_counts.most_common(10)

word_data

[('всё', 447),
 ('ночь', 250),
 ('сердце', 232),
 ('день', 183),
 ('твой', 183),
 ('душа', 159),
 ('жизнь', 147),
 ('ночи', 144),
 ('лишь', 142),
 ('моей', 139)]

# Визуализация #

In [None]:
fig_word = px.bar(x=[item[0] for item in word_data], y=[item[1] for item in word_data],
                  title="Самые распространенные слова", labels={"x": "Слово", "y": "Частота"})
fig_word.show(renderer='browser')


*scattermapbox* is deprecated! Use *scattermap* instead. Learn more at: https://plotly.com/python/mapbox-to-maplibre/



### У меня возникли проблемы с выводом графика в ноутбуке (в том числе черз mathplotlib.pyplot), поэтому визуализация выводится в браузере ###

# Итоги #

Моей задачей было определить наиболее часто встречающиеся лексические паттерны в текстах поэм Блока. Предаврительно обработав тексты, я нашла наиболее часто встречающиеся слова, реализовала тематическое моделирование, а также узнала, с какой частотой Блок использует в своих поэмах те или иные части речи. Таким образом, все алгоритмы отвечают общей цели - анализу лексических паттернов в поэмах Блока