In [23]:
# Импорт необходимых библиотек
import string
import pandas as pd
import os
import nltk
from nltk import word_tokenize
from nltk.probability import FreqDist
import spacy

In [24]:
# Чтение файла с речью политика
file_path = 'Speech/2023_путин.txt'
with open(file_path, 'r', encoding='utf-8') as f:
    text = f.read()

In [25]:
# Приведение текста к нижнему регистру и удаление специальных символов
text = text.lower()
spec_chars = string.punctuation + '\n\xa0«»\t—…'
for char in spec_chars:
    text = text.replace(char, ' ')
text = ' '.join(text.split())

In [26]:
# Фильтрация стоп-слов из текста
stopwords = set([
    "в", "к", "у", "о", "от", "при", "из", "без", "через", "над", "на", "с", "до", "тоже", "также", 
    "и", "да", "но", "зато", "только", "либо", "что", "когда", "как", "пока", "чтобы", "так как", 
    "потому что", "хотя", "если", "раз", "словно", "точно", "несмотря на то что", "да", "так", "точно", 
    "ну да", "не", "ни", "ли", "разве", "неужели", "а", "что ли", "как", "будто", "словно", "точно", 
    "как будто", "вроде", "как бы", "даже", "и", "ни", "же", "ведь", "уж", "всё", "всё-таки", "просто", 
    "прямо", "вот", "вон", "это", "именно", "как раз", "подлинно", "ровно", "лишь", "только", "хоть", 
    "всего", "исключительно", "что за", "то-то", "как", "ну и", "ведь", "вряд ли", "едва ли", "по", "для", 
    "их", "уже", "за", "то", "бы", "чем", "тем", "во", "об", "или", "со", "кто"
]) # список стоп-слов
words = text.split()
filtered_text = ' '.join(word for word in words if word not in stopwords)

In [27]:
# Токенизация фильтрованного текста и подсчет частоты слов
text_tokens = word_tokenize(filtered_text)
fdist = FreqDist(text_tokens)
fdist_dict = dict(fdist)

In [28]:
# Создание DataFrame с двумя столбцами: "Слово" и "Частота"
df = pd.DataFrame(list(fdist_dict.items()), columns=['Слово', 'Частота'])

In [29]:
# Подготовка к сохранению DataFrame в Excel файл
output_directory = 'xlsx'
file_name = '2023_путин.xlsx'
output_path = os.path.join(output_directory, file_name)
if not os.path.exists(output_directory):
    os.makedirs(output_directory)
df.to_excel(output_path, index=False)
print(f"Файл сохранен как '{output_path}'.")

Файл сохранен как 'xlsx\2023_путин.xlsx'.


In [30]:
# Лемматизация текста с помощью spaCy
nlp = spacy.load('ru_core_news_sm')
def lemmatize_text_with_spacy(text):
    doc = nlp(text)
    return [token.lemma_ for token in doc]
lemmatized_text = lemmatize_text_with_spacy(' '.join(text_tokens))

In [31]:
# Подсчет частоты лемматизированных слов
fdist_lemmatized = FreqDist(lemmatized_text)

In [32]:
# Создание DataFrame с лемматизированными словами и их частотой
df_lemmatized = pd.DataFrame(list(fdist_lemmatized.items()), columns=['Лемма', 'Частота'])

In [33]:
# Подготовка к сохранению лемматизированного DataFrame в Excel
original_file_name = '2023_путин'  # Название исходного файла
new_file_name = f"{original_file_name}_корни.xlsx"
output_path = os.path.join(output_directory, new_file_name)
if not os.path.exists(output_directory):
    os.makedirs(output_directory)
df_lemmatized.to_excel(output_path, index=False)
print(f"Файл сохранен как '{output_path}'.")

Файл сохранен как 'xlsx\2023_путин_корни.xlsx'.
