In [None]:
from bs4 import BeautifulSoup

def extract_chapter_from_html(html_content, start_heading, end_heading=None, start_level=1, end_level=None):
    """
    Wyodrębnia rozdział lub podrozdział z HTML na podstawie nagłówków, ignorując wewnętrzne tagi.

    :param html_content: Zawartość HTML jako string
    :param start_heading: Tekst początku rozdziału lub podrozdziału (np. "Rozdział 1")
    :param end_heading: Opcjonalnie tekst końcowy rozdziału lub podrozdziału (np. "Sekcja 1.1")
    :param start_level: Poziom nagłówka początkowego (np. 1 dla <h1>, 2 dla <h2>)
    :param end_level: Opcjonalnie poziom nagłówka końcowego (np. <h2>, <h3>)
    :return: Wyodrębniony fragment HTML z wybranym rozdziałem lub podrozdziałem
    """
    soup = BeautifulSoup(html_content, 'html.parser')

    # Tworzenie tagu nagłówka, który chcemy znaleźć
    start_tag = f'h{start_level}'
    end_tag = f'h{end_level}' if end_level else None

    # Znajdź element zaczynający wybrany rozdział, ignorując tagi wewnętrzne
    start_element = soup.find(lambda tag: tag.name == start_tag and tag.get_text(strip=True) == start_heading)

    if not start_element:
        print(f"Nie znaleziono nagłówka: {start_heading}")
        return None  # Jeśli nie znaleziono nagłówka

    output = str(start_element)

    # Przechodzenie przez kolejne elementy po nagłówku
    for sibling in start_element.find_next_siblings():
        # Zatrzymujemy się, gdy znajdziemy nagłówek wyższego poziomu (jeśli jest end_heading) lub gdy napotkamy wyższy poziom nagłówka
        if end_heading and sibling.name in ['h1', 'h2', 'h3'] and sibling.get_text(strip=True) == end_heading:
            break
        if end_tag and sibling.name == end_tag:
            break
        output += str(sibling)

    return output


In [None]:
# Przykładowy plik DOCX
docx_file = 'twoj_plik.docx'  # Ścieżka do pliku DOCX
html_content = convert_docx_to_html(docx_file)  # Zakładamy, że używasz mammoth do konwersji

# Wyodrębnienie fragmentu od 'Rozdział 1' do 'Sekcja 1.1'
chapter_html = extract_chapter_from_html(html_content, 'Rozdział 1', 'Sekcja 1.1', start_level=1, end_level=2)

# Zapisanie wynikowego HTML (opcjonalnie)
with open("extracted_chapter.html", "w", encoding="utf-8") as f:
    f.write(chapter_html)
