In [None]:
def read_file(file_path):
    if file_path.endswith('.txt'):
        return read_txt_file(file_path)
    elif file_path.endswith('.docx'):
        return read_docx_file(file_path)
    else:
        raise ValueError("Unsupported file format")

# Przykład użycia:
file_path = "example.docx"  # Lub .txt
content = read_file(file_path)
print(content)


dzięki bibliotece python-docx. Możesz nie tylko odczytywać pliki DOCX, ale także wyodrębniać konkretne rozdziały, paragrafy, tabele, a nawet formatowanie

In [None]:
from docx import Document

def extract_table_of_contents(doc_path):
    """
    Funkcja wypisuje spis treści (nagłówki) z dokumentu DOCX.

    :param doc_path: Ścieżka do pliku DOCX
    :return: Lista nagłówków wraz z ich poziomami
    """
    doc = Document(doc_path)
    table_of_contents = []

    # Iteracja przez wszystkie paragrafy w dokumencie
    for para in doc.paragraphs:
        # Sprawdź, czy paragraf jest nagłówkiem (Heading)
        if para.style.name.startswith('Heading'):
            # Pobierz poziom nagłówka (np. Heading 1 -> 1, Heading 2 -> 2)
            heading_level = para.style.name.split()[-1]  # Ostatnia część "Heading X"
            # Dodaj do spisu treści: (poziom nagłówka, tekst)
            table_of_contents.append((int(heading_level), para.text))

    return table_of_contents

def print_table_of_contents(doc_path):
    """
    Wypisuje spis treści dokumentu DOCX w czytelnej formie.

    :param doc_path: Ścieżka do pliku DOCX
    """
    table_of_contents = extract_table_of_contents(doc_path)

    # Wyświetlenie nagłówków z odpowiednim wcięciem
    for level, text in table_of_contents:
        print("  " * (level - 1) + f"{text}")

# Przykład użycia:
doc_path = "example.docx"
print_table_of_contents(doc_path)


In [None]:
from docx import Document

def extract_chapters(doc_path, chapters_to_extract, output_path):
    """
    Funkcja wycina wskazane rozdziały lub podrozdziały z dokumentu DOCX i zapisuje je do nowego pliku.

    :param doc_path: Ścieżka do oryginalnego pliku DOCX
    :param chapters_to_extract: Lista rozdziałów (nagłówków) do wyciągnięcia, np. ['Rozdział 1', 'Podrozdział 1.1']
    :param output_path: Ścieżka do nowego pliku DOCX
    """
    # Otwieramy oryginalny plik DOCX
    doc = Document(doc_path)

    # Tworzymy nowy dokument DOCX
    new_doc = Document()

    # Flaga kontrolująca, czy jesteśmy w wybranym rozdziale
    is_in_selected_chapter = False

    # Iterujemy przez paragrafy w dokumencie
    for para in doc.paragraphs:
        # Sprawdzamy, czy paragraf to nagłówek (Heading) i czy zawiera jeden z wybranych rozdziałów
        if para.style.name.startswith('Heading') and para.text in chapters_to_extract:
            # Zaczynamy kopiować od tego nagłówka
            is_in_selected_chapter = True
            new_doc.add_paragraph(para.text, style=para.style)  # Dodajemy nagłówek do nowego pliku
        elif para.style.name.startswith('Heading') and is_in_selected_chapter:
            # Natrafiliśmy na nowy nagłówek, kończymy kopiowanie
            break

        if is_in_selected_chapter:
            # Kopiujemy paragrafy, które należą do wybranego rozdziału
            new_doc.add_paragraph(para.text, style=para.style)

    # Zapisujemy nowy dokument
    new_doc.save(output_path)
    print(f"Zapisano nowy plik: {output_path}")

# Przykład użycia:
doc_path = 'example.docx'  # Ścieżka do oryginalnego pliku
chapters_to_extract = ['Rozdział 1', 'Podrozdział 1.1']  # Wskaż rozdziały do wycięcia
output_path = 'shortened.docx'  # Ścieżka do nowego pliku
extract_chapters(doc_path, chapters_to_extract, output_path)

In [None]:
from docx import Document

def extract_table_by_title(doc_path, table_title):
    """
    Wyodrębnia tabelę z dokumentu DOCX na podstawie tytułu.

    :param doc_path: Ścieżka do pliku DOCX
    :param table_title: Tytuł tabeli do wyodrębnienia
    :return: Tekst tabeli jako string
    """
    doc = Document(doc_path)
    table_found = False
    extracted_table = []

    for i, para in enumerate(doc.paragraphs):
        # Sprawdzamy, czy akapit to tytuł tabeli
        if table_title in para.text:
            table_found = True
            # Tytuł tabeli jest zazwyczaj nad tabelą, więc sprawdzamy następne elementy
            try:
                table = doc.tables[i]  # Pobieramy tabelę o tym indeksie
                for row in table.rows:
                    row_data = [cell.text for cell in row.cells]
                    extracted_table.append(row_data)
            except IndexError:
                print("Tabela nie została znaleziona lub znajduje się w innym miejscu.")
            break

    if table_found:
        print(f"Znaleziono tabelę: {table_title}")
        for row in extracted_table:
            print("\t".join(row))  # Wypisuje wiersze tabeli jako tekst z tabulacjami
    else:
        print(f"Tabela o tytule '{table_title}' nie została znaleziona.")

# Przykład użycia:
doc_path = "example.docx"  # Ścieżka do pliku DOCX
table_title = "Tabela 1.1"  # Tytuł tabeli, którą chcemy wyodrębnić
extract_table_by_title(doc_path, table_title)


In [None]:
import zipfile
import os

def extract_images_from_docx(docx_path, output_folder):
    """
    Wyodrębnia wszystkie obrazy z pliku DOCX i zapisuje je w podanym folderze.

    :param docx_path: Ścieżka do pliku DOCX
    :param output_folder: Folder, w którym obrazy zostaną zapisane
    """
    with zipfile.ZipFile(docx_path, 'r') as docx:
        # Przeglądaj pliki w archiwum ZIP
        for file in docx.namelist():
            if file.startswith('word/media/'):  # Pliki obrazów są w folderze "media"
                file_name = os.path.basename(file)
                file_path = os.path.join(output_folder, file_name)

                # Zapisujemy każdy obraz
                with open(file_path, 'wb') as output_file:
                    output_file.write(docx.read(file))
                print(f"Obraz zapisany jako: {file_path}")

# Przykład użycia:
docx_path = "example.docx"
output_folder = "extracted_images"
os.makedirs(output_folder, exist_ok=True)  # Tworzy folder, jeśli nie istnieje
extract_images_from_docx(docx_path, output_folder)


In [None]:
from docx import Document

def extract_and_summarize_chapter(doc_path, chapter_title):
    """
    Funkcja do wyodrębnienia konkretnego rozdziału z dokumentu DOCX i wygenerowania jego podsumowania.

    :param doc_path: Ścieżka do pliku DOCX
    :param chapter_title: Tytuł rozdziału, który ma zostać podsumowany
    :return: Tekst wybranego rozdziału oraz jego podsumowanie
    """
    # Otwórz plik DOCX
    doc = Document(doc_path)

    # Zmienna do przechowywania treści rozdziału
    is_in_chapter = False
    chapter_content = []

    # Iteracja przez paragrafy w pliku DOCX
    for para in doc.paragraphs:
        if para.style.name.startswith('Heading') and chapter_title in para.text:
            is_in_chapter = True
        elif para.style.name.startswith('Heading') and is_in_chapter:
            # Koniec rozdziału
            break

        if is_in_chapter:
            chapter_content.append(para.text)

    # Połącz tekst rozdziału w jeden ciąg
    chapter_text = "\n".join(chapter_content)

    if chapter_text:
        # Wygenerowanie podsumowania
        summary = generate_summary(chapter_text)
        return chapter_text, summary
    else:
        return "Chapter not found", ""

def generate_summary(text):
    """
    Funkcja pomocnicza do podsumowania tekstu.
    Tutaj możesz dodać własne narzędzie do podsumowywania.

    :param text: Tekst do podsumowania
    :return: Podsumowanie tekstu
    """
    # To jest miejsce na integrację z modelem AI, np. Mixtral, GPT, itp.
    # Zakładamy prostą funkcję podsumowania:
    summary = text[:min(200, len(text))] + '...'  # Przycinanie do 200 znaków jako przykład
    return summary

# Użycie:
doc_path = "your_file.docx"
chapter_title = "Chapter 2"  # Tytuł rozdziału, który chcesz wyodrębnić i podsumować
chapter_text, summary = extract_and_summarize_chapter(doc_path, chapter_title)

# Wyświetl wyodrębniony tekst rozdziału i podsumowanie
print("Extracted Chapter Text:\n", chapter_text)
print("\nSummary:\n", summary)
