# Загрузка библиотек. Подготовка данных

In [2]:
import os
import csv
import pandas as pd
import glob

In [3]:
# Функция для добавления заголовка "lemma" в CSV-файл
def add_header_to_csv(filepath):
    with open(filepath, 'r', encoding='utf-8') as f:
        reader = csv.reader(f)
        rows = list(reader)

    # Перезаписываем файл, добавляя заголовок в первую строку
    with open(filepath, 'w', encoding='utf-8', newline='') as f:
        writer = csv.writer(f)
        writer.writerow(['lemma'])  # Добавляем заголовок
        writer.writerows(rows)      # Записываем оставшиеся строки

In [4]:
lemmas_folder = os.path.join("..", "data", "lemmas")

for filename in os.listdir(lemmas_folder):
    if filename.endswith('.csv'):
        filepath = os.path.join(lemmas_folder, filename)
        add_header_to_csv(filepath)
        print(f"Заголовок добавлен: {filename}")

Заголовок добавлен: cleaned_anonymous_angelus.predicted_лем.csv
Заголовок добавлен: cleaned_alanus_de_insula_dist_summa.predicted_лем.csv
Заголовок добавлен: cleaned_nicolas_de_gorran_distinctiones.predicted_лем.csv
Заголовок добавлен: cleaned_guido_ebroicensis_summa.predicted_лем.csv
Заголовок добавлен: cleaned_petrus_cantor_distinctiones.predicted_лем.csv
Заголовок добавлен: anonymous_angelus.predicted_лем.csv
Заголовок добавлен: cleaned_nicolas_de_biard-distinctiones.predicted_лем.csv
Заголовок добавлен: cleaned_mauritius_hibernicus_distinctiones.predicted_лем.csv
Заголовок добавлен: alanus_de_insula_dist_summa.predicted_лем.csv
Заголовок добавлен: mauritius_hibernicus_distinctiones.predicted_лем.csv
Заголовок добавлен: nicolas_de_biard-distinctiones.predicted_лем.csv
Заголовок добавлен: petrus_cantor_distinctiones.predicted_лем.csv
Заголовок добавлен: guido_ebroicensis_summa.predicted_лем.csv
Заголовок добавлен: nicolas_de_gorran_distinctiones.predicted_лем.csv


# Подсчитываем 100 самых частотных слов

In [5]:
# Ищем все CSV-файлы в папке с леммами
all_files = glob.glob(os.path.join(lemmas_folder, "*.csv"))

# Создаём пустой DataFrame для объединения
df_merged = pd.DataFrame()

# Читаем каждый CSV и добавляем его в общий DataFrame
for filename in all_files:
    df = pd.read_csv(filename, index_col=None, header=0)
    df_merged = pd.concat([df_merged, df], ignore_index=True)

# Подсчитываем частоты по леммам
word_counts = df_merged['lemma'].value_counts()

# Извлекаем 100 самых частотных лемм
top_100_words = word_counts.head(100)

top_100_words.head(10)

lemma
deus        490
homo        290
Christus    290
dico        288
sum         205
debeo       140
triplex     116
malus       110
dominus     108
comparo     106
Name: count, dtype: int64

In [6]:
top_100_words.to_csv('../output/stats_tables/top_100_words.csv', index=True)

# Считаем топ-слова (за один сборник каждое слово считаем не больше одного раза)

In [7]:
df_merged = pd.DataFrame()

for filename in all_files:
    df = pd.read_csv(filename, index_col=None, header=0)

    # Удалим дубликаты лемм внутри каждого файла
    df_unique = df.drop_duplicates(subset='lemma')

    df_merged = pd.concat([df_merged, df_unique], ignore_index=True)

# Посчитаем количество уникальных появлений лемм
word_counts = df_merged['lemma'].value_counts()

# Получаем топ 100 лемм
top_100_words_filtered = word_counts.head(100)

top_100_words_filtered.head()

lemma
puer         14
iudicium     14
fons         14
mors         14
humilitas    14
Name: count, dtype: int64

In [8]:
top_100_words_filtered.to_csv('../output/stats_tables/top_100_unique_words.csv', index=True)