In [None]:
from docx import Document

def append_text_to_existing_chapter(doc_path, chapter_title, text_to_add):
    """
    Dopisuje tekst do istniejącego rozdziału lub podrozdziału w pliku DOCX.

    :param doc_path: Ścieżka do pliku DOCX
    :param chapter_title: Tytuł rozdziału, do którego ma zostać dopisany tekst
    :param text_to_add: Tekst, który ma zostać dopisany
    """
    # Otwieramy plik DOCX
    doc = Document(doc_path)

    # Flaga kontrolująca, czy jesteśmy w wybranym rozdziale
    is_in_chapter = False

    for para in doc.paragraphs:
        if para.style.name.startswith('Heading') and chapter_title in para.text:
            is_in_chapter = True  # Znalazł wybrany rozdział, można dopisać tekst
        elif para.style.name.startswith('Heading') and is_in_chapter:
            # Koniec rozdziału, przerywamy, bo nowy nagłówek
            break

        if is_in_chapter:
            # Dopisujemy tekst po zakończeniu istniejących akapitów w rozdziale
            doc.add_paragraph(text_to_add)
            break

    # Zapisujemy dokument
    doc.save(doc_path)
    print(f"Tekst został dodany do rozdziału '{chapter_title}'.")

# Przykład użycia:
doc_path = "your_file.docx"  # Ścieżka do pliku DOCX
chapter_title = "Chapter 2"  # Tytuł rozdziału, do którego chcemy dopisać tekst
text_to_add = "This is the additional text to be added to the existing chapter."  # Tekst do dodania

append_text_to_existing_chapter(doc_path, chapter_title, text_to_add)


In [None]:
from docx import Document

def add_new_chapter_and_text(doc_path, new_chapter_title, new_subchapter_title, text_to_add):
    """
    Dodaje nowy rozdział i/lub podrozdział oraz wkleja tekst na początku dokumentu DOCX.

    :param doc_path: Ścieżka do pliku DOCX
    :param new_chapter_title: Tytuł nowego rozdziału, który zostanie dodany
    :param new_subchapter_title: Tytuł nowego podrozdziału, który zostanie dodany (może być pusty)
    :param text_to_add: Tekst, który ma zostać dodany
    """
    # Otwieramy plik DOCX
    doc = Document(doc_path)

    # Dodajemy nowy rozdział na początku dokumentu
    doc._body.insert(0, doc._element.new_tag("w:p"))  # Dodanie pustego paragrafu, jeśli potrzebne
    new_chapter = doc.add_paragraph(new_chapter_title, style='Heading 1')

    # Dodajemy nowy podrozdział, jeśli podany
    if new_subchapter_title:
        new_subchapter = doc.add_paragraph(new_subchapter_title, style='Heading 2')

    # Dodajemy tekst w nowo stworzonym rozdziale/podrozdziale
    doc.add_paragraph(text_to_add)

    # Zapisujemy dokument
    doc.save(doc_path)
    print(f"Nowy rozdział '{new_chapter_title}' i tekst zostały dodane do pliku.")

# Przykład użycia:
doc_path = "your_file.docx"  # Ścieżka do pliku DOCX
new_chapter_title = "New Chapter Title"  # Tytuł nowego rozdziału
new_subchapter_title = "New Subchapter Title"  # Tytuł nowego podrozdziału (opcjonalnie)
text_to_add = "This is the text to be added to the new chapter."  # Tekst do dodania

add_new_chapter_and_text(doc_path, new_chapter_title, new_subchapter_title, text_to_add)


In [None]:
from docx import Document

def convert_table_to_html(table):
    """Konwertuje tabelę DOCX na format HTML"""
    html = "<table>\n"
    for row in table.rows:
        html += "  <tr>\n"
        for cell in row.cells:
            html += f"    <td>{cell.text}</td>\n"
        html += "  </tr>\n"
    html += "</table>\n"
    return html

def extract_chapter_with_tables(docx_file, start_heading, end_heading=None):
    """
    Wyodrębnia wybrany rozdział z tabelami, przekształca tabele na HTML i zachowuje tekst.

    :param docx_file: Ścieżka do pliku DOCX
    :param start_heading: Nagłówek początku rozdziału
    :param end_heading: Opcjonalnie, nagłówek kończący rozdział
    :return: Tekst wybranego rozdziału z tabelami przekształconymi na HTML
    """
    doc = Document(docx_file)
    output = ""
    extracting = False

    for para in doc.paragraphs:
        if para.text.strip() == start_heading:
            extracting = True  # Zaczynamy wyodrębnianie od znalezienia start_heading
        elif end_heading and para.text.strip() == end_heading:
            extracting = False  # Kończymy wyodrębnianie, gdy napotkamy end_heading
            break

        if extracting:
            output += para.text + "\n"

    # W tym momencie wyodrębniliśmy tekst rozdziału, teraz przetwarzamy tabele
    for table in doc.tables:
        if extracting:
            html_table = convert_table_to_html(table)
            output += html_table + "\n"

    return output

# Użycie funkcji:
docx_file = 'twoj_plik.docx'  # Ścieżka do pliku DOCX
start_heading = 'Rozdział 1'  # Tytuł rozdziału, który chcesz wyodrębnić
end_heading = 'Rozdział 2'    # Opcjonalnie tytuł następnego rozdziału
chapter_content = extract_chapter_with_tables(docx_file, start_heading, end_heading)

# Wynikowy tekst z tabelami w HTML można teraz zapisać do pliku lub użyć dalej
with open("output_chapter_with_tables.html", "w", encoding="utf-8") as f:
    f.write(chapter_content)


konwersja na html

In [None]:
import mammoth

def convert_docx_to_html(docx_path):
    """Konwertuje cały plik DOCX na HTML."""
    with open(docx_path, "rb") as docx_file:
        result = mammoth.convert_to_html(docx_file)
        html = result.value  # HTML jako string
        return html

# Użycie funkcji:
docx_file = 'twoj_plik.docx'
html_content = convert_docx_to_html(docx_file)

# Zapisanie wynikowego HTML do pliku (opcjonalnie)
with open("output.html", "w", encoding="utf-8") as f:
    f.write(html_content)


In [None]:
from bs4 import BeautifulSoup

def extract_chapter_from_html(html_content, start_heading, end_heading=None):
    """
    Wyodrębnia rozdział z HTML na podstawie nagłówków.

    :param html_content: Zawartość HTML jako string
    :param start_heading: Tytuł początku rozdziału
    :param end_heading: Opcjonalnie tytuł kończący rozdział
    :return: Wyodrębniony fragment HTML z wybranym rozdziałem
    """
    soup = BeautifulSoup(html_content, 'html.parser')

    # Znajdź element zaczynający wybrany rozdział
    start_element = soup.find(lambda tag: tag.name in ['h1', 'h2', 'h3'] and tag.get_text(strip=True) == start_heading)

    if not start_element:
        return None  # Jeśli nie znaleziono nagłówka

    output = str(start_element)

    # Przechodzenie przez kolejne elementy po nagłówku
    for sibling in start_element.find_next_siblings():
        if end_heading and sibling.name in ['h1', 'h2', 'h3'] and sibling.get_text(strip=True) == end_heading:
            break  # Zatrzymaj się, jeśli napotkasz koniec rozdziału
        output += str(sibling)

    return output

# Użycie funkcji:
chapter_html = extract_chapter_from_html(html_content, 'Rozdział 1', 'Rozdział 2')

# Zapisanie wyodrębnionego rozdziału do pliku (opcjonalnie)
with open("chapter_output.html", "w", encoding="utf-8") as f:
    f.write(chapter_html)


In [None]:
from bs4 import BeautifulSoup

def extract_multiple_chapters_from_html(html_content, chapters_to_extract):
    """
    Wyodrębnia wiele rozdziałów/sekcji/podrozdziałów z HTML na podstawie listy nagłówków i zapisuje je jako całość.

    :param html_content: Zawartość HTML jako string
    :param chapters_to_extract: Lista słowników z informacjami o nagłówkach do wyodrębnienia.
        Każdy słownik zawiera:
        - 'start_heading': Nagłówek początkowy
        - 'end_heading' (opcjonalny): Nagłówek końcowy
        - 'start_level' (opcjonalny): Poziom nagłówka początkowego
        - 'end_level' (opcjonalny): Poziom nagłówka końcowego
    :return: Połączony fragment HTML z wybranymi rozdziałami/sekcjami
    """
    soup = BeautifulSoup(html_content, 'html.parser')
    combined_output = ""

    for chapter in chapters_to_extract:
        start_heading = chapter['start_heading']
        end_heading = chapter.get('end_heading')
        start_level = chapter.get('start_level', None)
        end_level = chapter.get('end_level', None)

        # Tworzenie tagu startowego na podstawie poziomu nagłówka, jeśli podano
        if start_level:
            start_tag = f'h{start_level}'
        else:
            start_tag = ['h1', 'h2', 'h3', 'h4', 'h5', 'h6']  # Sprawdza wszystkie poziomy nagłówków

        # Tworzenie tagu końcowego na podstawie poziomu nagłówka, jeśli podano
        if end_level:
            end_tag = f'h{end_level}'
        else:
            end_tag = None

        # Znajdź element zaczynający wybrany rozdział lub podrozdział
        start_element = soup.find(lambda tag: tag.name in start_tag and tag.get_text(strip=True) == start_heading)

        if not start_element:
            print(f"Nie znaleziono nagłówka: {start_heading}")
            continue  # Jeśli nie znaleziono, przejdź do następnego rozdziału

        output = str(start_element)

        # Przechodzenie przez kolejne elementy po nagłówku, dopóki nie napotkamy końca
        for sibling in start_element.find_next_siblings():
            # Zatrzymujemy się, gdy znajdziemy nagłówek wyższego poziomu (jeśli jest end_heading) lub gdy napotkamy wyższy poziom nagłówka
            if end_heading and sibling.name in ['h1', 'h2', 'h3', 'h4', 'h5', 'h6'] and sibling.get_text(strip=True) == end_heading:
                break

            # Jeśli ustawiony jest poziom końca i znajdziemy nagłówek tego poziomu, zatrzymaj się
            if end_level and sibling.name == end_tag:
                break

            output += str(sibling)

        combined_output += output + "\n\n"  # Dodanie każdego wybranego fragmentu

    return combined_output

# Przykład użycia:

html_content = "twoj_kod_html"  # Zawartość HTML wczytana wcześniej

chapters_to_extract = [
    {
        'start_heading': 'Rozdział 1',
        'end_heading': 'Sekcja 1.1',
        'start_level': 1,
        'end_level': 2
    },
    {
        'start_heading': 'Rozdział 2',
        'start_level': 1
    },
    {
        'start_heading': 'Podsekcja 3.1',
        'start_level': 3,
        'end_level': 3
    }
]

# Wyodrębnij rozdziały
combined_html = extract_multiple_chapters_from_html(html_content, chapters_to_extract)

# Zapisz wynik do pliku HTML
with open("extracted_chapters.html", "w", encoding="utf-8") as f:
    f.write(combined_html)


In [None]:
def read_html_file(file_path):
    """
    Wczytuje plik HTML i zwraca jego zawartość jako string.

    :param file_path: Ścieżka do pliku HTML
    :return: Zawartość pliku HTML jako string
    """
    try:
        with open(file_path, 'r', encoding='utf-8') as file:
            content = file.read()
        return content
    except FileNotFoundError:
        print(f"Plik {file_path} nie został znaleziony.")
        return None
    except Exception as e:
        print(f"Wystąpił błąd: {e}")
        return None

# Użycie funkcji:
html_content = read_html_file('path_to_your_html_file.html')

if html_content:
    print(html_content)  # Wyświetla zawartość pliku HTML


In [None]:
from bs4 import BeautifulSoup

# Jeśli zawartość pliku została poprawnie wczytana
if html_content:
    soup = BeautifulSoup(html_content, 'html.parser')
    # Przykładowa operacja: wyświetlenie tytułu strony
    print(soup.title.string)
