In [119]:
import re

# Чтение файла и загрузка текста
file_path = 'odobrom.txt'
with open(file_path, 'r', encoding='utf-8') as file:
    text = file.read()

# Разбиваем текст на блоки
def parse_text(text):
    # Регулярное выражение для поиска всех блоков "Письмо"
    pattern = r"(Письмо\s+\S+\s+\S+)\n*([А-ЯЁ\s\-,.!?]+)(.*?)(?=Письмо\s+\S+|\Z)"
    blocks = []
    
    # Находим все совпадения
    for match in re.finditer(pattern, text, re.DOTALL):
        letter_number = match.group(1).strip()  # Номер письма
        title = match.group(2).strip()           # Заголовок письма
        content = match.group(3).strip()         # Содержание письма 

        # Разделение содержания на предложения
        sentences = re.split(r'(?<=[.!?])\s+', content)

        # Формируем метаинформацию и удаляем ненужные знаки препинания только в `pattern_meta`
        pattern_meta = f"{letter_number}. {title}"
        pattern_meta = re.sub(r'[^\w\s-]', '', pattern_meta)  # Удаление всех знаков препинания, кроме тире

        # Добавляем блок с метаинформацией и предложениями
        blocks.append({
            "pattern": pattern_meta,
            "content": sentences
        })

    return blocks

# Парсим текст
blocks = parse_text(text)

# Функция для отображения информации о блоках
def display_blocks(blocks):
    for i, block in enumerate(blocks):
        print(f'Block {i + 1}:')
        print(f'Meta Information: {block["pattern"]}')
        print('Sentences:')
        for sentence in block["content"]:
            print(f' - {sentence}')
        print()

# Выводим информацию о блоках
display_blocks(blocks)

# Проверка количества блоков
print(f'Total blocks found: {len(blocks)}')


Block 1:
Meta Information: Письмо первое
БОЛЬШОЕ В МАЛОМ
В
Sentences:
 - материальном мире большое не уместишь в малом.
 - В сфере же духовных ценностей не так: в малом может уместиться гораздо большее, а если в большом попытаться уместить малое, то большое просто перестанет существовать.
 - Если есть у человека великая цель, то она должна проявляться во всем – в самом, казалось бы, незначительном.
 - Надо быть честным в незаметном и случайном: тогда только будешь честным и в выполнении своего большого долга.
 - Большая цель охватывает всего человека, сказывается в каждом его поступке, и нельзя думать, что дурными средствами можно достигнуть доброй цели.
 - Поговорка «цель оправдывает средства» губительна и безнравственна.
 - Это хорошо показал Достоевский в «Преступлении и наказании».
 - Главное действующее лицо этого произведения – Родион Раскольников думал, что, убив отвратительную старушонку-ростовщицу, он добудет деньги, на которые сможет затем достигнуть великих целей и облагодет

In [120]:
import csv

# Запись уже имеющихся блоков в новый CSV-файл
output_file_path = 'parsed_blocks.csv'
with open(output_file_path, 'w', newline='', encoding='utf-8') as csvfile:
    writer = csv.writer(csvfile)
    writer.writerow(['Meta', 'Sentence'])  # Заголовки колонок

    # Проход по каждому блоку и сохранение предложений с метаинформацией
    for block in blocks:
        meta_info = block["pattern"]  # Метаинформация блока
        for sentence in block["content"]:
            writer.writerow([meta_info, sentence])

print(f'Файл сохранён как {output_file_path}')

Файл сохранён как parsed_blocks.csv
