In [None]:
from docx import Document

def convert_docx_with_tables_to_text(docx_path, output_path):
    # Otwórz dokument DOCX
    doc = Document(docx_path)

    # Lista, w której będziemy przechowywać tekstową wersję dokumentu
    document_text = []

    # Iteracja przez wszystkie elementy dokumentu
    for element in doc.element.body:
        # Sprawdzenie, czy element jest tabelą
        if element.tag.endswith('tbl'):
            table = next(t for t in doc.tables if t._tbl == element)
            table_text = []

            # Wyciągnięcie tekstu z każdej komórki w tabeli i oddzielenie tabulatorem
            for row in table.rows:
                row_text = "\t".join((cell.text or '').strip() for cell in row.cells)  # Sprawdzamy, czy cell.text nie jest None
                table_text.append(row_text)

            # Dodanie każdej tabeli jako osobnej sekcji tekstu, oddzielonej nowymi liniami
            document_text.append("\n".join(table_text))
        else:
            # Jeśli element nie jest tabelą, traktuj go jako akapit
            paragraph = element
            document_text.append(paragraph.text.strip() if paragraph.text else '')  # Sprawdzamy, czy paragraph.text nie jest None

    # Zapisanie wyniku do pliku tekstowego
    with open(output_path, "w", encoding="utf-8") as f:
        f.write("\n\n".join(document_text))

    print(f"Konwersja zakończona. Dokument zapisano w pliku: {output_path}")

# Przykład użycia:
docx_file = "przykladowy_plik.docx"
output_file = "dokument_z_tabelami_tekst.txt"
convert_docx_with_tables_to_text(docx_file, output_file)


In [None]:
from docx import Document

def convert_docx_to_markdown_with_tables(docx_path, output_path):
    # Otwórz dokument DOCX
    doc = Document(docx_path)

    # Lista, w której będziemy przechowywać markdownową wersję dokumentu
    markdown_content = []

    # Iteracja przez elementy dokumentu (akapit, tabela, itp.)
    for element in doc.element.body:
        # Sprawdzenie, czy element jest tabelą
        if element.tag.endswith('tbl'):
            table = next(t for t in doc.tables if t._tbl == element)
            table_md = []

            # Wyciągnięcie wiersza nagłówków (pierwszego wiersza)
            headers = [(cell.text or '').strip() for cell in table.rows[0].cells]  # Sprawdzanie, czy tekst nie jest None
            table_md.append("| " + " | ".join(headers) + " |")
            table_md.append("|" + "|".join(["-" * len(header) for header in headers]) + "|")

            # Wyciągnięcie pozostałych wierszy
            for row in table.rows[1:]:
                row_text = [(cell.text or '').strip() for cell in row.cells]  # Sprawdzanie, czy tekst nie jest None
                table_md.append("| " + " | ".join(row_text) + " |")

            # Dodanie markdownowej tabeli do ogólnej zawartości dokumentu
            markdown_content.append("\n".join(table_md))
        else:
            # Jeżeli element nie jest tabelą, to uznajemy, że jest to akapit
            paragraph = element
            markdown_content.append(paragraph.text.strip() if paragraph.text else '')  # Sprawdzamy, czy paragraph.text nie jest None

    # Zapis markdownowej wersji dokumentu do pliku
    with open(output_path, "w", encoding="utf-8") as f:
        f.write("\n\n".join(markdown_content))

    print(f"Konwersja zakończona. Dokument zapisano w pliku: {output_path}")

# Przykład użycia:
docx_file = "przykladowy_plik.docx"
output_file_md = "dokument_z_tabelami_markdown.md"
convert_docx_to_markdown_with_tables(docx_file, output_file_md)
