想请教下pdf内容提取的方法 #20

AugustLHHHHHH · 2024-03-07T10:34:25Z

作者您好，想请教下对pdf内容进行提取的步骤具体是怎么做的，谢谢

shibing624 · 2024-03-08T05:13:55Z

提取文本：

    def extract_text_from_pdf(file_path: str):
        """Extract text content from a PDF file."""
        import PyPDF2
        contents = []
        with open(file_path, 'rb') as f:
            pdf_reader = PyPDF2.PdfReader(f)
            for page in pdf_reader.pages:
                page_text = page.extract_text().strip()
                raw_text = [text.strip() for text in page_text.splitlines() if text.strip()]
                new_text = ''
                for text in raw_text:
                    new_text += text
                    if text[-1] in ['.', '!', '?', '。', '！', '？', '…', ';', '；', ':', '：', '”', '’', '）', '】', '》', '」',
                                    '』', '〕', '〉', '》', '〗', '〞', '〟', '»', '"', "'", ')', ']', '}']:
                        contents.append(new_text)
                        new_text = ''
                if new_text:
                    contents.append(new_text)
        return contents

细致的处理pdf的表格和文本可以用 Unstructured提取各pdf的元素，可以参考langchain：

https://github.com/langchain-ai/langchain/blob/master/cookbook/Semi_structured_and_multi_modal_RAG.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

想请教下pdf内容提取的方法 #20

想请教下pdf内容提取的方法 #20

AugustLHHHHHH commented Mar 7, 2024

shibing624 commented Mar 8, 2024

想请教下pdf内容提取的方法 #20

想请教下pdf内容提取的方法 #20

Comments

AugustLHHHHHH commented Mar 7, 2024

shibing624 commented Mar 8, 2024