In [14]:
import re
from collections import defaultdict

file_path = "gore_ot_uma.txt"
data = read_data_from_file(file_path)

def read_data_from_file(file_path):
    with open(file_path, 'r', encoding='utf-8') as file:
        return file.readlines()

def mapper(data):
    for line in data:
        parts = line.split("\t", 1)
        if len(parts) < 2:
            continue  # Пропускаем строки без реплик
        character = parts[0].strip()
        dialogue = parts[1].strip()
        # удаление от пунктуации и разбиение на слова
        words = re.findall(r'\b[a-zA-Zа-яА-ЯёЁ]+\b', dialogue.lower())
        yield character, set(words)  # Используем set для уникальности слов

def reducer(mapped_data):
    character_info = defaultdict(lambda: {'unique_words': set(), 'replica_count': 0})

    for character, words in mapped_data:
        character_info[character]['unique_words'].update(words)  # Обновляем уникальные слова
        character_info[character]['replica_count'] += 1  # Увеличиваем счетчик реплик

    result = []
    for character, info in character_info.items():
        result.append((character, len(info['unique_words']), info['replica_count']))
    return result


mapped_data = list(map(mapper, [data]))  
flattened_mapped_data = [item for sublist in mapped_data for item in sublist]  
final_result = reducer(flattened_mapped_data) 
for character, unique_word_count, replica_count in final_result:
    print(f"{character}: Уникальных слов = {unique_word_count}, Реплик = {replica_count}")


Лизанька: Уникальных слов = 89, Реплик = 23
София: Уникальных слов = 823, Реплик = 293
=====: Уникальных слов = 1, Реплик = 60
Лиза: Уникальных слов = 500, Реплик = 161
Фамусов: Уникальных слов = 1332, Реплик = 476
Голос Софии: Уникальных слов = 2, Реплик = 1
Молчалин: Уникальных слов = 385, Реплик = 120
Слуга: Уникальных слов = 9, Реплик = 3
Чацкий: Уникальных слов = 1877, Реплик = 713
Скалозуб: Уникальных слов = 301, Реплик = 78
Наталья Дмитриевна: Уникальных слов = 168, Реплик = 52
Платон Михайлович: Уникальных слов = 76, Реплик = 21
Платон Михаилович: Уникальных слов = 80, Реплик = 21
1-я княжна: Уникальных слов = 11, Реплик = 3
2-я княжна: Уникальных слов = 7, Реплик = 2
3-я княжна: Уникальных слов = 9, Реплик = 2
4-я княжна: Уникальных слов = 8, Реплик = 2
5-я княжна: Уникальных слов = 4, Реплик = 2
6-я княжна: Уникальных слов = 4, Реплик = 2
Княгиня: Уникальных слов = 135, Реплик = 32
Князь: Уникальных слов = 5, Реплик = 6
Графиня внучка: Уникальных слов = 114, Реплик = 29
Загор