In [None]:
from docx import Document
import os

def docx_to_txt(docx_filename, txt_filename):
    # Otwieranie pliku .docx (zakładamy, że znajduje się w tym samym katalogu)
    doc = Document(docx_filename)

    with open(txt_filename, 'w', encoding='utf-8') as txt_file:
        for para in doc.paragraphs:
            # Zapis akapitów do pliku txt
            txt_file.write(para.text + '\n')

        for table in doc.tables:
            for row in table.rows:
                # Przepisanie każdej komórki w wierszu tabeli, oddzielając je tabulatorem
                row_text = '\t'.join(cell.text for cell in row.cells)
                txt_file.write(row_text + '\n')

    print(f"Zapisano plik txt do: {txt_filename}")

# Przykład użycia:
# docx_to_txt('plik_wejsciowy.docx', 'plik_wyjsciowy.txt')


In [None]:
from docx import Document
import os

def docx_to_txt(docx_filename, txt_filename):
    # Otwieranie pliku .docx (zakładamy, że znajduje się w tym samym katalogu)
    doc = Document(docx_filename)

    with open(txt_filename, 'w', encoding='utf-8') as txt_file:
        for para in doc.paragraphs:
            # Zapis akapitów do pliku txt
            txt_file.write(para.text + '\n')

        for table in doc.tables:
            # Przepisanie nagłówków tabeli (pierwszy wiersz)
            first_row = table.rows[0]
            header = '| ' + ' | '.join(cell.text for cell in first_row.cells) + ' |'
            txt_file.write(header + '\n')

            # Separator pomiędzy nagłówkiem a resztą tabeli
            separator = '| ' + ' | '.join('---' for _ in first_row.cells) + ' |'
            txt_file.write(separator + '\n')

            # Przepisanie pozostałych wierszy tabeli
            for row in table.rows[1:]:
                row_text = '| ' + ' | '.join(cell.text for cell in row.cells) + ' |'
                txt_file.write(row_text + '\n')

    print(f"Zapisano plik txt do: {txt_filename}")

# Przykład użycia:
# docx_to_txt('plik_wejsciowy.docx', 'plik_wyjsciowy.txt')


In [None]:
from docx import Document
import os

def docx_to_txt(docx_filename, txt_filename):
    # Otwieranie pliku .docx (zakładamy, że znajduje się w tym samym katalogu)
    doc = Document(docx_filename)

    with open(txt_filename, 'w', encoding='utf-8') as txt_file:
        # Zmienna do śledzenia, czy należy dodać separator sekcji
        is_first_section = True

        # Przechodzimy przez akapity w pliku .docx
        for para in doc.paragraphs:
            if para.text.strip():  # Pomijamy puste akapity
                if not is_first_section:
                    # Dodajemy separator sekcji przed każdym akapitem (poza pierwszym)
                    txt_file.write('\n-----\n\n')
                txt_file.write(para.text + '\n')
                is_first_section = False  # Po pierwszej sekcji zawsze dodawaj separator

        # Przechodzimy przez tabele w pliku .docx
        for table in doc.tables:
            # Dodaj separator między sekcjami tekstu i tabelami
            txt_file.write('\n-----\n\n')

            # Przepisanie nagłówków tabeli (pierwszy wiersz)
            first_row = table.rows[0]
            header = '| ' + ' | '.join(cell.text for cell in first_row.cells) + ' |'
            txt_file.write(header + '\n')

            # Separator pomiędzy nagłówkiem a resztą tabeli
            separator = '| ' + ' | '.join('---' for _ in first_row.cells) + ' |'
            txt_file.write(separator + '\n')

            # Przepisanie pozostałych wierszy tabeli
            for row in table.rows[1:]:
                row_text = '| ' + ' | '.join(cell.text for cell in row.cells) + ' |'
                txt_file.write(row_text + '\n')

    print(f"Zapisano plik txt do: {txt_filename}")

# Przykład użycia:
# docx_to_txt('plik_wejsciowy.docx', 'plik_wyjsciowy.txt')


In [None]:
from docx import Document
from docx.oxml.table import CT_Tbl  # do identyfikacji tabel w body
from docx.oxml.text.paragraph import CT_P  # do identyfikacji akapitów w body

def docx_to_txt(docx_filename, txt_filename):
    # Otwieranie pliku .docx (zakładamy, że znajduje się w tym samym katalogu)
    doc = Document(docx_filename)

    with open(txt_filename, 'w', encoding='utf-8') as txt_file:
        # Zmienna do śledzenia, czy należy dodać separator sekcji
        is_first_section = True

        # Przechodzimy przez elementy dokumentu w ich oryginalnej kolejności
        for element in doc.element.body:
            if isinstance(element, CT_P):  # Jeśli to akapit
                para = element
                if para.text.strip():  # Pomijamy puste akapity
                    if not is_first_section:
                        # Dodajemy separator sekcji przed każdym akapitem (poza pierwszym)
                        txt_file.write('\n-----\n\n')
                    txt_file.write(para.text + '\n')
                    is_first_section = False  # Po pierwszej sekcji zawsze dodawaj separator

            elif isinstance(element, CT_Tbl):  # Jeśli to tabela
                # Dodaj separator między sekcjami tekstu i tabelami
                txt_file.write('\n-----\n\n')

                # Przechodzimy przez tabele w pliku .docx
                table = next(t for t in doc.tables if t._tbl == element)

                # Przepisanie nagłówków tabeli (pierwszy wiersz)
                first_row = table.rows[0]
                header = '| ' + ' | '.join(cell.text for cell in first_row.cells) + ' |'
                txt_file.write(header + '\n')

                # Separator pomiędzy nagłówkiem a resztą tabeli
                separator = '| ' + ' | '.join('---' for _ in first_row.cells) + ' |'
                txt_file.write(separator + '\n')

                # Przepisanie pozostałych wierszy tabeli
                for row in table.rows[1:]:
                    row_text = '| ' + ' | '.join(cell.text for cell in row.cells) + ' |'
                    txt_file.write(row_text + '\n')

    print(f"Zapisano plik txt do: {txt_filename}")

# Przykład użycia:
# docx_to_txt('plik_wejsciowy.docx', 'plik_wyjsciowy.txt')
