In [7]:
import os
import PyPDF2  #type: ignore
import docx  #type: ignore
import json  

def extract_text_from_pdf(pdf_path):
    text = ""
    try:
        with open(pdf_path, "rb") as f:
            reader = PyPDF2.PdfReader(f)
            for page in reader.pages:
                page_text = page.extract_text()
                if page_text:
                    # Replace all whitespace (including newlines) with a single space
                    cleaned_text = " ".join(page_text.split())
                    text += cleaned_text + "\n"
    except Exception as e:
        print(f"Error processing {pdf_path}: {e}")
    return text

def extract_text_from_word(doc_path):
    text = ""
    try:
        doc = docx.Document(doc_path)
        text = "\n".join(para.text for para in doc.paragraphs)
    except Exception as e:
        print(f"Error processing {doc_path}: {e}")
    return text

def process_documents(folder_path):
    extracted_data = {}  
    for filename in os.listdir(folder_path):
        file_path = os.path.join(folder_path, filename)
        
        # Process PDFs
        if filename.lower().endswith('.pdf'):
            print(f"Processing PDF: {filename}")
            pdf_text = extract_text_from_pdf(file_path)
            # Here you can add your code to pass pdf_text through your RAG pipeline
            print(pdf_text)
            extracted_data[filename] = pdf_text 
        
        # Process Word documents
        elif filename.lower().endswith('.docx'):
            print(f"Processing Word Document: {filename}")
            word_text = extract_text_from_word(file_path)
            # Here you can add your code to pass word_text through your RAG pipeline
            print(word_text) 
            extracted_data[filename] = word_text  
    
    # Save the extracted data as a JSON file 
    output_file = "extracted_text.json" 
    with open(output_file, "w", encoding="utf-8") as f:  
        json.dump(extracted_data, f, indent=4, ensure_ascii=False)  

    print(f"Extracted text saved to: {output_file}")  

if __name__ == "__main__":
    folder = "/Users/aradelfin/Documents/Books"  
    process_documents(folder)

Processing PDF: Una corte de alas y ruina - Sarah J Maas.pdf
Feyre ha vuelto a la Corte Primavera decidida a desvelar las artimañas de Tamlin y las razones del rey que amenaza Prythian. Pero para hacerlo, tendrá que jugar al mortal juego del engaño… un solo paso en falso podría condenarla, no solo a ella sino a todo su mundo. La guerra se cierne sobre todos, y Feyre tendrá que elegir muy bien en quién confiar. www.lectulandia.com - Página 2
Sarah J. Maas Una corte de alas y ruina Una corte de rosas y espinas - 3 ePub r1.0 NoTanMalo 02.03.18 www.lectulandia.com - Página 3
Título original: A Court of Wings and Ruin Sarah J. Maas, 2017 Traducción: Julio Sierra Editor digital: NoTanMalo ePub base r1.2 www.lectulandia.com - Página 4
Para Josh y Annie… Un regalo. Todo esto www.lectulandia.com - Página 5
www.lectulandia.com - Página 6
www.lectulandia.com - Página 7
Rhysand Dos años antes del muro El zumbido de las moscas y los gritos de los supervivien tes habían reemplazado el resonar de los