In [10]:
import html2text

def convert_html_to_markdown(html_file_path: str) -> str:
    """
    Конвертирует HTML файл в Markdown.

    Parameters
    ----------
    html_file_path : str
        Путь к HTML файлу.

    Returns
    -------
    str
        Строка в формате Markdown.
    """
    # Читаем HTML файл
    with open(html_file_path, 'r', encoding='utf-8') as file:
        html_content = file.read()

    # Создаем объект для конвертации HTML в Markdown
    converter = html2text.HTML2Text()

    # Отключаем ссылки в квадратных скобках (чтобы не было [link](url))
    converter.ignore_links = False

    # Конвертируем HTML в Markdown
    markdown_text = converter.handle(html_content)

    return markdown_text

# Пример использования
# html_file = r'..\data\from_site\raw\FAQ_ RUTUBE для Smart TV.html'
html_file = r'..\data\from_site\raw\FAQ_ Shorts.html'
markdown_text = convert_html_to_markdown(html_file)

# Выводим первые 100 символов Markdown текста для проверки
print(markdown_text)


![](

In [12]:
import os
import html2text

def convert_html_to_markdown(html_content: str) -> str:
    """
    Конвертирует HTML контент в Markdown.

    Parameters
    ----------
    html_content : str
        Содержимое HTML в виде строки.

    Returns
    -------
    str
        Строка в формате Markdown.
    """
    converter = html2text.HTML2Text()
    converter.ignore_links = False  # Оставляем ссылки
    markdown_text = converter.handle(html_content)
    return markdown_text

def convert_all_html_in_folder(folder_path: str) -> None:
    """
    Конвертирует все HTML файлы в указанной папке в Markdown файлы и сохраняет их с тем же именем и расширением .md.

    Parameters
    ----------
    folder_path : str
        Путь к папке, содержащей HTML файлы.
    """
    # Проходим по всем файлам в указанной директории
    for filename in os.listdir(folder_path):
        if filename.endswith(".html"):
            html_file_path = os.path.join(folder_path, filename)

            # Читаем HTML файл
            with open(html_file_path, 'r', encoding='utf-8') as file:
                html_content = file.read()

            # Конвертируем HTML в Markdown
            markdown_content = convert_html_to_markdown(html_content)

            # Генерируем путь для нового файла с расширением .md
            md_file_path = os.path.join(folder_path, f"{os.path.splitext(filename)[0]}.md")

            # Сохраняем Markdown файл
            with open(md_file_path, 'w', encoding='utf-8') as md_file:
                md_file.write(markdown_content)

            print(f"Конвертировано: {filename} -> {os.path.basename(md_file_path)}")

# Пример использования
folder_path = '../data/from_site/raw/'
convert_all_html_in_folder(folder_path)


Конвертировано: FAQ_ RUTUBE для Smart TV.html -> FAQ_ RUTUBE для Smart TV.md
Конвертировано: FAQ_ Shorts.html -> FAQ_ Shorts.md
Конвертировано: FAQ_ Верификация канала на RUTUBE.html -> FAQ_ Верификация канала на RUTUBE.md
Конвертировано: FAQ_ Встраивание (embed) видео.html -> FAQ_ Встраивание (embed) видео.md
Конвертировано: FAQ_ Доступ к управлению каналом RUTUBE.html -> FAQ_ Доступ к управлению каналом RUTUBE.md
Конвертировано: FAQ_ Жесты и горячие клавиши.html -> FAQ_ Жесты и горячие клавиши.md
Конвертировано: FAQ_ Модерация на RUTUBE.html -> FAQ_ Модерация на RUTUBE.md
Конвертировано: FAQ_ Монетизация на RUTUBE.html -> FAQ_ Монетизация на RUTUBE.md
Конвертировано: FAQ_ Оформление канала RUTUBE.html -> FAQ_ Оформление канала RUTUBE.md
Конвертировано: FAQ_ Перенос видео с Youtube на RUTUBE.html -> FAQ_ Перенос видео с Youtube на RUTUBE.md
Конвертировано: FAQ_ Трансляции на RUTUBE.html -> FAQ_ Трансляции на RUTUBE.md
Конвертировано: FAQ_ Часто задаваемые вопросы RUTUBE.html -> FAQ_ Ч