In [2]:
#!/usr/bin/env python3
import re

def remove_links(text: str) -> str:
    """
    Удаляет встроенные ссылки из строки Markdown.
    Для изображений (формат ![alt](url)) удаляет всю конструкцию,
    для обычных ссылок (формат [текст](url)) оставляет только отображаемый текст.
    """
    # Удаляем изображения
    text = re.sub(r'!\[.*?\]\(.*?\)', '', text)
    # Заменяем обычные ссылки на отображаемый текст
    text = re.sub(r'\[([^\]]+)\]\(.*?\)', r'\1', text)
    return text

def process_file(input_file: str, output_file: str) -> None:
    """
    Обрабатывает файл Markdown:
      - Если строка находится вне раздела "## Ссылки", удаляет из неё встроенные ссылки.
      - В разделах "## Ссылки" оставляет содержимое без изменений.
    Результат записывается в output_file.
    """
    with open(input_file, 'r', encoding='utf-8') as f:
        lines = f.readlines()
    
    processed_lines = []
    in_links_section = False

    for line in lines:
        # Если строка является заголовком раздела "## Ссылки", устанавливаем флаг
        if re.match(r'^##\s*Ссылки', line):
            in_links_section = True
        # Если встречается новый заголовок второго уровня (начинается с "##") и он не "Ссылки",
        # сбрасываем флаг
        elif re.match(r'^##\s*\S', line) and not re.match(r'^##\s*Ссылки', line):
            in_links_section = False

        # Если мы не в разделе "Ссылки", очищаем строку от встроенных ссылок
        if not in_links_section:
            line = remove_links(line)
        processed_lines.append(line)
    
    with open(output_file, 'w', encoding='utf-8') as f:
        f.writelines(processed_lines)

if __name__ == '__main__':
    input_file = '/Users/sergey/Desktop/Voise_RAG/DATA/all_articles copy.md'
    output_file = '/Users/sergey/Desktop/Voise_RAG/DATA/all_articles_cleaned.md'
    process_file(input_file, output_file)
    print(f"Обработка завершена. Результат сохранён в файл: {output_file}")

Обработка завершена. Результат сохранён в файл: /Users/sergey/Desktop/Voise_RAG/DATA/all_articles_cleaned.md


In [3]:
#!/usr/bin/env python3
import os
import re

def remove_links(text: str) -> str:
    """
    Удаляет встроенные ссылки из строки Markdown:
    - Полностью удаляются конструкции изображений вида ![alt](url)
    - Обычные ссылки вида [текст](url) заменяются на отображаемый текст
    """
    # Удаляем изображения
    text = re.sub(r'!\[.*?\]\(.*?\)', '', text)
    # Заменяем обычные ссылки на отображаемый текст
    text = re.sub(r'\[([^\]]+)\]\(.*?\)', r'\1', text)
    return text

def process_markdown(content: str) -> str:
    """
    Обрабатывает содержимое Markdown-файла:
      - Если строка находится вне раздела "## Ссылки", очищает её от встроенных ссылок.
      - В разделе "## Ссылки" оставляет содержимое без изменений.
    """
    lines = content.splitlines(keepends=True)
    processed_lines = []
    in_links_section = False

    for line in lines:
        # При встрече раздела "## Ссылки" устанавливаем флаг
        if re.match(r'^##\s*Ссылки', line):
            in_links_section = True
        # Если встречается новый заголовок второго уровня (начинается с "##") и это не "Ссылки", сбрасываем флаг
        elif re.match(r'^##\s*\S', line) and not re.match(r'^##\s*Ссылки', line):
            in_links_section = False

        # Если строка не находится в разделе "Ссылки", удаляем встроенные ссылки
        if not in_links_section:
            line = remove_links(line)
        processed_lines.append(line)
    return ''.join(processed_lines)

def process_directory(input_dir: str, output_dir: str) -> None:
    """
    Находит файлы с расширением .md в указанной папке и обрабатывает их.
    Результат сохраняется в указанной выходной папке с суффиксом '_cleaned' в имени файла.
    """
    if not os.path.exists(output_dir):
        os.makedirs(output_dir)
    
    for filename in os.listdir(input_dir):
        if filename.lower().endswith('.md'):
            input_path = os.path.join(input_dir, filename)
            with open(input_path, 'r', encoding='utf-8') as f:
                content = f.read()
            
            cleaned_content = process_markdown(content)
            output_filename = os.path.splitext(filename)[0] + '_cleaned.md'
            output_path = os.path.join(output_dir, output_filename)
            
            with open(output_path, 'w', encoding='utf-8') as f:
                f.write(cleaned_content)
            
            print(f"Обработан файл: {input_path} -> {output_path}")

if __name__ == '__main__':
    input_directory = '/Users/sergey/Desktop/Voise_RAG/DATA/articles copy'
    output_directory = '/Users/sergey/Desktop/Voise_RAG/DATA/articles_cleaned'
    process_directory(input_directory, output_directory)
    print("Обработка завершена.")

Обработан файл: /Users/sergey/Desktop/Voise_RAG/DATA/articles copy/ukhod-za-kozhey.md -> /Users/sergey/Desktop/Voise_RAG/DATA/articles_cleaned/ukhod-za-kozhey_cleaned.md
Обработан файл: /Users/sergey/Desktop/Voise_RAG/DATA/articles copy/khimchistka-salona-avtomobilya-svoimi-rukami.md -> /Users/sergey/Desktop/Voise_RAG/DATA/articles_cleaned/khimchistka-salona-avtomobilya-svoimi-rukami_cleaned.md
Обработан файл: /Users/sergey/Desktop/Voise_RAG/DATA/articles copy/ukhod-za-plastikovymi-elementami-salona.md -> /Users/sergey/Desktop/Voise_RAG/DATA/articles_cleaned/ukhod-za-plastikovymi-elementami-salona_cleaned.md
Обработан файл: /Users/sergey/Desktop/Voise_RAG/DATA/articles copy/kak-pravilno-otpolirovat-lobovoe-steklo.md -> /Users/sergey/Desktop/Voise_RAG/DATA/articles_cleaned/kak-pravilno-otpolirovat-lobovoe-steklo_cleaned.md
Обработан файл: /Users/sergey/Desktop/Voise_RAG/DATA/articles copy/kak-izbavitsya-ot-zapaha-v-salone-avto.md -> /Users/sergey/Desktop/Voise_RAG/DATA/articles_cleaned/