In [1]:
! git clone https://github.com/yu432/diploma_work

Cloning into 'diploma_work'...
remote: Enumerating objects: 142, done.[K
remote: Counting objects: 100% (142/142), done.[K
remote: Compressing objects: 100% (134/134), done.[K
remote: Total 142 (delta 20), reused 128 (delta 6), pack-reused 0[K
Receiving objects: 100% (142/142), 922.91 KiB | 3.51 MiB/s, done.
Resolving deltas: 100% (20/20), done.


In [2]:
!pip install rouge-score
!pip install rouge
!pip install pymorphy2


Collecting rouge-score
  Downloading rouge_score-0.1.2.tar.gz (17 kB)
  Preparing metadata (setup.py) ... [?25ldone
Building wheels for collected packages: rouge-score
  Building wheel for rouge-score (setup.py) ... [?25ldone
[?25h  Created wheel for rouge-score: filename=rouge_score-0.1.2-py3-none-any.whl size=24934 sha256=bbb81a64955af6a57209132d42e6f883b903dd98ddf2ca869d98e776667b8c8b
  Stored in directory: /root/.cache/pip/wheels/5f/dd/89/461065a73be61a532ff8599a28e9beef17985c9e9c31e541b4
Successfully built rouge-score
Installing collected packages: rouge-score
Successfully installed rouge-score-0.1.2
Collecting rouge
  Downloading rouge-1.0.1-py3-none-any.whl.metadata (4.1 kB)
Downloading rouge-1.0.1-py3-none-any.whl (13 kB)
Installing collected packages: rouge
Successfully installed rouge-1.0.1
Collecting pymorphy2
  Downloading pymorphy2-0.9.1-py3-none-any.whl.metadata (3.6 kB)
Collecting dawg-python>=0.7.1 (from pymorphy2)
  Downloading DAWG_Python-0.7.2-py2.py3-none-any.whl

In [3]:
import os
from rouge import Rouge
import pymorphy2

# Путь к папкам с текстовыми документами
folder_llama = "diploma_work/story_level_long_saiga_llama_3_8b_4bit_100_words/"
folder_summary = "diploma_work/story_level_long_good_summary"

# Создаем объект для расчета метрик ROUGE
rouge = Rouge()

# Создаем объект для стемматизации
morph = pymorphy2.MorphAnalyzer()

# Функция для подсчета слов в тексте
def count_words(text):
    return len(text.split())

# Функция для стемматизации текста
def stem_text(text):
    words = text.split()
    stemmed_words = [morph.parse(word)[0].normal_form for word in words]
    return ' '.join(stemmed_words)

# Получаем список файлов в папке
llama_files = os.listdir(folder_llama)
summary_files = os.listdir(folder_summary)

# Проверка, что в обеих папках есть одинаковые файлы
common_files = set(llama_files).intersection(summary_files)

results = []

# Проходим по каждому общему файлу и вычисляем метрики
for file_name in common_files:
    with open(os.path.join(folder_llama, file_name), 'r', encoding='utf-8') as f:
        llama_text = f.read()
    
    with open(os.path.join(folder_summary, file_name), 'r', encoding='utf-8') as f:
        summary_text = f.read()
    
    # Подсчет количества слов в тексте из story_level_long_llama_3_8b_4bit_100_words
    llama_word_count = count_words(llama_text)
    
    # Стемматизация текстов
    stemmed_llama_text = stem_text(llama_text)
    stemmed_summary_text = stem_text(summary_text)
    
    # Вычисляем метрики ROUGE
    scores = rouge.get_scores(stemmed_llama_text, stemmed_summary_text, avg=True)
    rouge1 = scores['rouge-1']['f']
    rouge2 = scores['rouge-2']['f']
    rougeL = scores['rouge-l']['f']

    results.append((file_name, rouge1, rouge2, rougeL, llama_word_count))

# Выводим результаты
for result in results:
    print(f"Файл: {result[0]}")
    print(f"  ROUGE-1: {result[1]:.4f}")
    print(f"  ROUGE-2: {result[2]:.4f}")
    print(f"  ROUGE-L: {result[3]:.4f}")
    print(f"  Длина текста: {result[4]} слов")



Файл: chehov_loshadinaya.txt
  ROUGE-1: 0.3558
  ROUGE-2: 0.1158
  ROUGE-L: 0.3313
  Длина текста: 113 слов
Файл: chehov_grisha.txt
  ROUGE-1: 0.2500
  ROUGE-2: 0.0339
  ROUGE-L: 0.2222
  Длина текста: 114 слов
Файл: chehov_detvora.txt
  ROUGE-1: 0.1818
  ROUGE-2: 0.0271
  ROUGE-L: 0.1722
  Длина текста: 219 слов
Файл: chehov_kot.txt
  ROUGE-1: 0.2353
  ROUGE-2: 0.0484
  ROUGE-L: 0.2246
  Длина текста: 181 слов
Файл: chehov_sobitie.txt
  ROUGE-1: 0.2314
  ROUGE-2: 0.0671
  ROUGE-L: 0.2149
  Длина текста: 261 слов
Файл: chehov_gore.txt
  ROUGE-1: 0.2209
  ROUGE-2: 0.0483
  ROUGE-L: 0.1963
  Длина текста: 125 слов
Файл: chehov_papasha.txt
  ROUGE-1: 0.2963
  ROUGE-2: 0.0156
  ROUGE-L: 0.2963
  Длина текста: 65 слов
Файл: chehov_anyuta.txt
  ROUGE-1: 0.4386
  ROUGE-2: 0.0930
  ROUGE-L: 0.4211
  Длина текста: 58 слов
Файл: chehov_nalim.txt
  ROUGE-1: 0.3038
  ROUGE-2: 0.0319
  ROUGE-L: 0.2785
  Длина текста: 112 слов
Файл: chehov_uchitel.txt
  ROUGE-1: 0.3605
  ROUGE-2: 0.1005
  ROUGE-L: 0