In [None]:
def extract_chapter_from_txt(txt_filename, chapter_name):
    with open(txt_filename, 'r', encoding='utf-8') as file:
        lines = file.readlines()

    extracting = False
    extracted_text = []
    chapter_level = None

    # Przechodzimy przez każdą linię w pliku
    for line in lines:
        # Sprawdzamy, czy linia zawiera nagłówek (oznaczony przez #)
        if line.startswith('#'):
            current_header = line.strip()

            # Sprawdzamy poziom nagłówka (na podstawie liczby #)
            current_level = current_header.count('#')

            # Sprawdzamy, czy to nagłówek wybranego rozdziału
            if chapter_name in current_header:
                extracting = True
                chapter_level = current_level  # Ustawiamy poziom nagłówka rozdziału
                extracted_text.append(line)
            # Przerywamy ekstrakcję, jeśli trafimy na inny nagłówek tego samego lub wyższego poziomu
            elif extracting and current_level <= chapter_level:
                break
            elif extracting:
                extracted_text.append(line)  # Kontynuujemy ekstrakcję, dopóki nie znajdziemy nowego nagłówka

    return ''.join(extracted_text)


# Przykład użycia:
# Załóżmy, że chcemy wyodrębnić rozdział "Rozdział 1" z pliku 'wynik.txt'
chapter_content = extract_chapter_from_txt('wynik.txt', 'Rozdział 1')
print(chapter_content)


In [None]:
def extract_sections_from_txt(txt_filename, header_pairs):
    """
    Funkcja wycina fragmenty tekstu między parami nagłówków.

    :param txt_filename: Nazwa pliku tekstowego do przeszukania.
    :param header_pairs: Lista krotek (nagłówek_początek, nagłówek_koniec), które określają fragmenty do wyciągnięcia.
    :return: Słownik, gdzie kluczem jest krotka (nagłówek_początek, nagłówek_koniec), a wartością jest wyodrębniony tekst.
    """
    with open(txt_filename, 'r', encoding='utf-8') as file:
        lines = file.readlines()

    extracted_sections = {}

    for start_header, end_header in header_pairs:
        extracting = False
        section_text = []

        for line in lines:
            # Sprawdzamy, czy linia zawiera nagłówek (oznaczony przez #)
            if line.startswith('#'):
                current_header = line.strip()

                # Sprawdzamy, czy znaleźliśmy nagłówek początkowy
                if start_header in current_header:
                    extracting = True
                    section_text.append(line)  # Dodajemy początkowy nagłówek

                # Sprawdzamy, czy znaleźliśmy nagłówek końcowy i jeśli tak, kończymy ekstrakcję
                elif extracting and end_header in current_header:
                    section_text.append(line)  # Dodajemy końcowy nagłówek
                    extracting = False
                    break

            # Dodajemy wiersze między nagłówkami, jeśli jesteśmy w trybie ekstrakcji
            if extracting:
                section_text.append(line)

        # Zapisujemy wyodrębniony fragment tekstu dla danej pary nagłówków
        extracted_sections[(start_header, end_header)] = ''.join(section_text)

    return extracted_sections


# Przykład użycia:
header_pairs = [
    ('# Rozdział 1', '# Rozdział 2'),  # Wyodrębnienie tekstu od 'Rozdział 1' do 'Rozdział 2'
    ('## Podrozdział 1.1', '## Podrozdział 1.2')  # Wyodrębnienie tekstu między podrozdziałami
]

extracted_sections = extract_sections_from_txt('wynik.txt', header_pairs)

# Zapisz wyciągnięte sekcje do osobnych plików:
for (start_header, end_header), content in extracted_sections.items():
    # Tworzymy nazwę pliku na podstawie nagłówków
    filename = f"{start_header.strip('#').strip()}_do_{end_header.strip('#').strip()}.txt"
    with open(filename, 'w', encoding='utf-8') as f:
        f.write(content)
    print(f"Zapisano sekcję: {filename}")


In [None]:
from docx import Document
from docx.oxml.table import CT_Tbl  # do identyfikacji tabel w body
from docx.oxml.text.paragraph import CT_P  # do identyfikacji akapitów w body

def docx_to_txt(docx_filename, txt_filename):
    # Otwieranie pliku .docx
    doc = Document(docx_filename)

    with open(txt_filename, 'w', encoding='utf-8') as txt_file:
        # Przechodzimy przez elementy dokumentu w ich oryginalnej kolejności
        for element in doc.element.body:
            if isinstance(element, CT_P):  # Jeśli to akapit
                # Znajdujemy paragraf na podstawie XML elementu
                p = next(p for p in doc.paragraphs if p._element == element)

                # Sprawdzanie, czy paragraf jest nagłówkiem
                if p.style.name.startswith('Heading'):
                    # Oznaczamy tylko główne sekcje na podstawie poziomu nagłówka
                    level = int(p.style.name.split(' ')[1])  # np. 'Heading 1' -> 1
                    if level <= 3:  # Oznaczamy tylko Heading 1, Heading 2, Heading 3
                        heading_marker = '#' * level  # Tworzymy odpowiednią liczbę #
                        txt_file.write(f"\n{heading_marker} {p.text}\n")
                elif p.text.strip():  # Pomijamy puste akapity
                    txt_file.write(p.text + '\n')

            elif isinstance(element, CT_Tbl):  # Jeśli to tabela
                # Dodajemy separator tylko przed tabelami
                txt_file.write('\n')

                # Przechodzimy przez tabele w pliku .docx
                table = next(t for t in doc.tables if t._tbl == element)

                # Przepisanie nagłówków tabeli (pierwszy wiersz)
                first_row = table.rows[0]
                header = '| ' + ' | '.join(cell.text for cell in first_row.cells) + ' |'
                txt_file.write(header + '\n')

                # Separator pomiędzy nagłówkiem a resztą tabeli
                separator = '| ' + ' | '.join('---' for _ in first_row.cells) + ' |'
                txt_file.write(separator + '\n')

                # Przepisanie pozostałych wierszy tabeli
                for row in table.rows[1:]:
                    row_text = '| ' + ' | '.join(cell.text for cell in row.cells) + ' |'
                    txt_file.write(row_text + '\n')

    print(f"Zapisano plik txt do: {txt_filename}")

# Przykład użycia:
# docx_to_txt('plik_wejsciowy.docx', 'plik_wyjsciowy.txt')


In [None]:
def extract_sections_from_txt(txt_filename, headers_to_extract):
    """
    Funkcja wycina fragmenty tekstu między podanymi nagłówkami.

    :param txt_filename: Nazwa pliku tekstowego do przeszukania.
    :param headers_to_extract: Lista nagłówków (z #, ##, ###), które chcemy wyodrębnić.
    :return: Słownik, gdzie kluczem jest nagłówek, a wartością wyodrębniony tekst.
    """
    with open(txt_filename, 'r', encoding='utf-8') as file:
        lines = file.readlines()

    extracted_sections = {}
    current_section = None
    section_text = []

    for line in lines:
        # Sprawdzamy, czy linia jest nagłówkiem (musi zaczynać się od #, ## lub ###)
        if line.startswith('#'):
            # Jeśli linia jest jednym z wybranych nagłówków, rozpoczynamy zbieranie
            header = line.strip()

            if header in headers_to_extract:
                # Jeśli już zbieramy inną sekcję, zakończ jej zbieranie
                if current_section:
                    extracted_sections[current_section] = ''.join(section_text)
                    section_text = []  # Resetujemy zbierany tekst dla nowej sekcji

                # Rozpoczynamy nową sekcję
                current_section = header
                section_text.append(line)  # Dodajemy linię nagłówka
            elif current_section:
                # Jeśli jesteśmy w trakcie zbierania, a pojawia się nowy nagłówek, przerywamy
                # ekstrakcję tej sekcji, bo napotkaliśmy kolejny nagłówek (również #, ##, ###)
                if line.startswith('#') and line.count('#') <= header.count('#'):
                    extracted_sections[current_section] = ''.join(section_text)
                    current_section = None
                    section_text = []

        # Zbieranie tekstu, dopóki nie napotkamy kolejnego nagłówka
        if current_section:
            section_text.append(line)

    # Zapisujemy ostatnią sekcję, jeśli była zbierana
    if current_section:
        extracted_sections[current_section] = ''.join(section_text)

    return extracted_sections

# Przykład użycia:
headers_to_extract = [
    '# Rozdział 1',  # Wyodrębnienie sekcji zaczynającej się od "Rozdział 1"
    '## Podrozdział 1.1'  # Wyodrębnienie sekcji zaczynającej się od "Podrozdział 1.1"
]

extracted_sections = extract_sections_from_txt('wynik.txt', headers_to_extract)

# Zapisz wyciągnięte sekcje do osobnych plików:
for header, content in extracted_sections.items():
    # Tworzymy nazwę pliku na podstawie nagłówka
    filename = f"{header.strip('#').strip()}.txt"
    with open(filename, 'w', encoding='utf-8') as f:
        f.write(content)
    print(f"Zapisano sekcję: {filename}")
