In [None]:
from docx import Document
from docx.shared import Pt

def convert_docx_with_tables_to_text(docx_path, output_path):
    # Otwórz dokument DOCX
    doc = Document(docx_path)
    new_doc = Document()  # Nowy dokument do zapisywania

    # Iteracja przez elementy dokumentu (akapity, tabele, itp.)
    for element in doc.element.body:
        # Sprawdzenie, czy element jest tabelą
        if element.tag.endswith('tbl'):
            table = next(t for t in doc.tables if t._tbl == element)

            # Przekształć tabelę na tekst
            for row in table.rows:
                row_text = "\t".join((cell.text or '').strip() for cell in row.cells)  # Wyciągnij tekst z wierszy tabeli
                new_paragraph = new_doc.add_paragraph(row_text)  # Dodaj wiersz jako paragraf
                new_paragraph.style.font.size = Pt(10)  # Opcjonalnie: zmień rozmiar czcionki
        else:
            # Przekształcenie akapitu
            for paragraph in doc.paragraphs:
                if element == paragraph._element:
                    # Skopiuj akapit i jego formatowanie
                    new_paragraph = new_doc.add_paragraph(paragraph.text)
                    new_paragraph.style = paragraph.style

    # Zapis nowego dokumentu do pliku DOCX
    new_doc.save(output_path)
    print(f"Konwersja zakończona. Dokument zapisano w pliku: {output_path}")

# Przykład użycia:
docx_file = "przykladowy_plik.docx"
output_file = "dokument_z_tabelami_tekst.docx"
convert_docx_with_tables_to_text(docx_file, output_file)


In [None]:
from docx import Document

def convert_docx_tables_to_markdown(docx_path, output_path):
    # Otwórz dokument DOCX
    doc = Document(docx_path)

    # Iteracja przez wszystkie elementy dokumentu, w tym akapity i tabele
    for i, element in enumerate(doc.element.body):
        # Sprawdzenie, czy element jest tabelą
        if element.tag.endswith('tbl'):
            table = next(t for t in doc.tables if t._tbl == element)
            table_md = []

            # Wyciągnięcie wiersza nagłówków (pierwszego wiersza)
            headers = [(cell.text or '').strip() for cell in table.rows[0].cells]
            table_md.append("| " + " | ".join(headers) + " |")
            table_md.append("|" + "|".join(["-" * len(header) for header in headers]) + "|")

            # Wyciągnięcie pozostałych wierszy
            for row in table.rows[1:]:
                row_text = [(cell.text or '').strip() for cell in row.cells]
                table_md.append("| " + " | ".join(row_text) + " |")

            # Zastąpienie tabeli tekstem markdown w dokumencie
            table_as_markdown = "\n".join(table_md)

            # Usunięcie tabeli z oryginalnego miejsca
            table._element.getparent().remove(table._element)

            # Dodanie tekstu markdown zamiast tabeli
            doc.paragraphs[i].insert_paragraph_before(table_as_markdown)

    # Zapis zmodyfikowanego dokumentu do pliku DOCX
    doc.save(output_path)
    print(f"Konwersja zakończona. Dokument zapisano w pliku: {output_path}")

# Przykład użycia:
docx_file = "przykladowy_plik.docx"
output_file_md = "dokument_z_tabelami_markdown.docx"
convert_docx_tables_to_markdown(docx_file, output_file_md)
