In [29]:
# Импорт необходимых библиотек
import string
import pandas as pd
import os
import nltk
from nltk import word_tokenize
from nltk.probability import FreqDist
import spacy

In [30]:
# Чтение файла с речью политика
file_path = 'Speech/2008_медведев.txt'
with open(file_path, 'r', encoding='utf-8') as f:
    text = f.read()

In [31]:
# Приведение текста к нижнему регистру и удаление специальных символов
text = text.lower()
spec_chars = string.punctuation + '\n\xa0«»\t—…'
for char in spec_chars:
    text = text.replace(char, ' ')
text = ' '.join(text.split())

In [32]:
# Фильтрация стоп-слов из текста
stopwords = set([...])  # список стоп-слов
words = text.split()
filtered_text = ' '.join(word for word in words if word not in stopwords)

In [33]:
# Токенизация фильтрованного текста и подсчет частоты слов
text_tokens = word_tokenize(filtered_text)
fdist = FreqDist(text_tokens)
fdist_dict = dict(fdist)

In [34]:
# Создание DataFrame с двумя столбцами: "Слово" и "Частота"
df = pd.DataFrame(list(fdist_dict.items()), columns=['Слово', 'Частота'])

In [35]:
# Подготовка к сохранению DataFrame в Excel файл
output_directory = 'xlsx'
file_name = '2008_медведев.xlsx'
output_path = os.path.join(output_directory, file_name)
if not os.path.exists(output_directory):
    os.makedirs(output_directory)
df.to_excel(output_path, index=False)
print(f"Файл сохранен как '{output_path}'.")

Файл сохранен как 'xlsx\2008_медведев.xlsx'.


In [36]:
# Лемматизация текста с помощью spaCy
nlp = spacy.load('ru_core_news_sm')
def lemmatize_text_with_spacy(text):
    doc = nlp(text)
    return [token.lemma_ for token in doc]
lemmatized_text = lemmatize_text_with_spacy(' '.join(text_tokens))

In [37]:
# Подсчет частоты лемматизированных слов
fdist_lemmatized = FreqDist(lemmatized_text)

In [38]:
# Создание DataFrame с лемматизированными словами и их частотой
df_lemmatized = pd.DataFrame(list(fdist_lemmatized.items()), columns=['Лемма', 'Частота'])

In [39]:
# Подготовка к сохранению лемматизированного DataFrame в Excel
original_file_name = '2008_медведев'  # Название исходного файла
new_file_name = f"{original_file_name}_корни.xlsx"
output_path = os.path.join(output_directory, new_file_name)
if not os.path.exists(output_directory):
    os.makedirs(output_directory)
df_lemmatized.to_excel(output_path, index=False)
print(f"Файл сохранен как '{output_path}'.")

Файл сохранен как 'xlsx\2008_медведев_корни.xlsx'.
