In [41]:
import fitz  # Import PyMuPDF
import os  # Import os for directory operations
import pickle

In [42]:
FOLDER_PATH = 'Doc/'  # Adjust this path to your folder
PICKLE_PATH = 'Saved/textdata.pkl'  # Specify the filename and path to save the data


In [43]:
def extract_and_clean_text_from_folder(folder_path):
    all_pdf_data = []
    for filename in os.listdir(folder_path):
        if filename.lower().endswith('.pdf'):
            pdf_path = os.path.join(folder_path, filename)
            doc = fitz.open(pdf_path)
            cleaned_pages = []
            
            for page_num in range(len(doc)):
                page = doc.load_page(page_num)
                text = page.get_text("text")
                text = ' '.join(text.split())
                document_name = filename
                cleaned_pages.append([document_name, page_num + 1, text.strip()])
            doc.close()
            all_pdf_data.extend(cleaned_pages)
    return all_pdf_data

def list_pdf_filenames(folder_path):
    pdf_filenames = [filename for filename in os.listdir(folder_path) if filename.lower().endswith('.pdf')]
    idx = 0
    print(f'Documents in folder:')
    for filename in pdf_filenames:
        idx += 1
        print(f'\t {idx} : {filename}')
    return pdf_filenames

def print_specific_page(all_cleaned_data, document_name, page_number):
    for entry in all_cleaned_data:
        if entry[0] == document_name and entry[1] == page_number:
            print(f"Content of page {page_number} in document '{document_name}':\n\t{entry[2]}")
            return
    print(f"Page {page_number} in document '{document_name}' not found.")

def save_data(data, filename):
    with open(filename, 'wb') as file:
        pickle.dump(data, file)
    print(f"Data saved to {filename}")

def load_data(filename):
    with open(filename, 'rb') as file:
        return pickle.load(file)


In [44]:
all_cleaned_data        = extract_and_clean_text_from_folder(FOLDER_PATH)
docs                    = list_pdf_filenames(FOLDER_PATH)

save_data(all_cleaned_data, PICKLE_PATH)
print_specific_page(all_cleaned_data, docs[0], 1)

Documents in folder:
	 1 : Ustawa.pdf
Data saved to Saved/textdata.pkl
Content of page 1 in document 'Ustawa.pdf':
	©Kancelaria Sejmu s. 1/15 2023-09-21 U S T AWA z dnia 24 czerwca 1994 r. o własności lokali Rozdział 1 Przepisy ogólne Art. 1. 1. Ustawa określa sposób ustanawiania odrębnej własności samodzielnych lokali mieszkalnych, lokali o innym przeznaczeniu, prawa i obowiązki właścicieli tych lokali oraz zarząd nieruchomością wspólną. 2. W zakresie nieuregulowanym ustawą do własności lokali stosuje się przepisy Kodeksu cywilnego. Art. 1a. Ilekroć w ustawie jest mowa o właścicielu lokalu, należy przez to rozumieć także współwłaściciela lokalu w częściach ułamkowych, z wyjątkiem art. 16. Art. 2. 1. Samodzielny lokal mieszkalny, a także lokal o innym przeznaczeniu, zwane dalej „lokalami”, mogą stanowić odrębne nieruchomości. 1a. Ustanowienie odrębnej własności samodzielnego lokalu następuje zgodnie z ustaleniami miejscowego planu zagospodarowania przestrzennego albo treścią decyzji o 

In [46]:
loaded_data = load_data(PICKLE_PATH)
print_specific_page(loaded_data, docs[0], 2)

Content of page 2 in document 'Ustawa.pdf':
	©Kancelaria Sejmu s. 2/15 2023-09-21 zastosowania do budynków, które zostały wybudowane na podstawie pozwolenia na budowę wydanego przed dniem 11 lipca 2003 r. 2. Samodzielnym lokalem mieszkalnym, w rozumieniu ustawy, jest wydzielona trwałymi ścianami w obrębie budynku izba lub zespół izb przeznaczonych na stały pobyt ludzi, które wraz z pomieszczeniami pomocniczymi służą zaspokajaniu ich potrzeb mieszkaniowych. Przepis ten stosuje się odpowiednio również do samodzielnych lokali wykorzystywanych zgodnie z przeznaczeniem na cele inne niż mieszkalne. 3. Spełnienie wymagań, o których mowa w ust. 1a–2, stwierdza starosta w formie zaświadczenia. 4. Do lokalu mogą przynależeć, jako jego części składowe, pomieszczenia, choćby nawet do niego bezpośrednio nie przylegały lub były położone w granicach nieruchomości gruntowej poza budynkiem, w którym wyodrębniono dany lokal, a w szczególności: piwnica, strych, komórka, garaż, zwane dalej „pomieszczeniam