In [1]:
import re

def extract_categories(html_file, output_file):
    """
    Извлекает категории с указанием вложенности из HTML файла закладок
    и записывает результаты в текстовый файл.

    Args:
        html_file (str): Путь к HTML файлу закладок.
        output_file (str): Путь к файлу для записи результатов (txt).
    """

    categories = []
    stack = []  # Используем стек для отслеживания вложенности
    try:
        with open(html_file, 'r', encoding='utf-8') as f:
            for line in f:
                # Ищем строки, содержащие теги <H3>
                match = re.search(r'<H3.*?>(.*?)</H3>', line)
                if match:
                    category_name = match.group(1)

                    # Проверяем, нужно ли увеличить или уменьшить уровень вложенности
                    if '<DL><p>' in line:
                        stack.append(category_name) # Push в стек
                    elif '</DL><p>' in line:
                        if stack:
                            stack.pop() # Pop из стека

                    # Создаем строку с учетом вложенности
                    indent = '  ' * (len(stack) -1)  # Отступ
                    full_category_name = indent + category_name
                    categories.append(full_category_name)
    except FileNotFoundError:
        print(f"Ошибка: Файл '{html_file}' не найден.")
        return
    except Exception as e:
        print(f"Произошла ошибка при чтении файла: {e}")
        return

    try:
        with open(output_file, 'w', encoding='utf-8') as f:
            for category in categories:
                f.write(category + '\n')
        print(f"Категории успешно извлечены и сохранены в файл '{output_file}'.")
    except Exception as e:
        print(f"Произошла ошибка при записи в файл: {e}")


# Пример использования:
html_file = 'bookmarks_22.03.2025.html'  # Замените на имя вашего HTML файла
output_file = 'categories.txt'  # Имя файла для сохранения категорий
extract_categories(html_file, output_file)

Категории успешно извлечены и сохранены в файл 'categories.txt'.
