# python提取PDF文档中的图片
https://www.cnblogs.com/zhaco/p/10654956.html

In [13]:
# !pip install pymupdf
!pip freeze | grep fitz

In [21]:
import fitz
import time
import re
import os
def pdf2pic(pdf_dir, pdf_file, pic_path):
    t0 = time.clock()                          # 生成图片初始时间
    checkXO = r"/Type(?= */XObject)"           # 使用正则表达式来查找图片
    checkIM = r"/Subtype(?= */Image)"
    doc = fitz.open(os.path.join(pdf_dir, pdf_file))                      # 打开pdf文件
    imgcount = 0                               # 图片计数
    lenXREF = doc._getXrefLength()             # 获取对象数量长度
     
    # 打印PDF的信息
    print("文件名:{}, 页数: {}, 对象: {}".format(path, len(doc), lenXREF - 1))
     
    # 遍历每一个对象
    for i in range(1, lenXREF):
        text = doc._getXrefString(i)            # 定义对象字符串
        isXObject = re.search(checkXO, text)    # 使用正则表达式查看是否是对象
        isImage = re.search(checkIM, text)      # 使用正则表达式查看是否是图片
        if not isXObject or not isImage:        # 如果不是对象也不是图片，则continue
            continue
        imgcount += 1
        pix = fitz.Pixmap(doc, i)               # 生成图像对象
        new_name = f"{path}_{imgcount}.png" # 生成图片的名称
        if pix.n < 5:                           # 如果pix.n<5,可以直接存为PNG
            pix.writePNG(os.path.join(pic_path, new_name))
        else:                                   # 否则先转换CMYK
            pix0 = fitz.Pixmap(fitz.csRGB, pix)
            pix0.writePNG(os.path.join(pic_path, new_name))
            pix0 = None
        pix = None                              # 释放资源
        t1 = time.clock()                       # 图片完成时间
        print("运行时间:{}s".format(t1 - t0))
        print("提取了{}张图片".format(imgcount))

In [18]:
pdf_dir = 'pdf_files'
os.listdir(pdf_dir)

['840519.pdf', '846345.pdf', '1072649.pdf', '1091869.pdf', '1093310.pdf']

In [23]:
# path = r"840519.pdf"
# pic_path = r'840519'
for path in os.listdir(pdf_dir):
    print(path)
    pic_path = os.path.join(pdf_dir, path.split('.')[0])
    # 创建保存图片的文件夹
    if os.path.exists(pic_path):
        print("文件夹已存在，不必重新创建！")
    else:
        os.mkdir(pic_path)
    pdf2pic(pdf_dir, path, pic_path)

840519.pdf
文件名:840519.pdf, 页数: 19, 对象: 184


  


运行时间:0.20293799999999962s
提取了1张图片
运行时间:0.4285759999999996s
提取了2张图片
运行时间:0.5292399999999997s
提取了3张图片
运行时间:0.6425250000000009s
提取了4张图片
运行时间:0.7636470000000006s
提取了5张图片
运行时间:0.8775650000000006s
提取了6张图片
运行时间:0.9931490000000007s
提取了7张图片
运行时间:1.092715s
提取了8张图片
运行时间:1.2456940000000003s
提取了9张图片
运行时间:1.391217000000001s
提取了10张图片
运行时间:1.5407260000000012s
提取了11张图片
运行时间:1.670732000000001s
提取了12张图片
运行时间:1.808465s
提取了13张图片
运行时间:1.9279030000000006s
提取了14张图片
运行时间:2.022602000000001s
提取了15张图片
运行时间:2.1617680000000004s
提取了16张图片
运行时间:2.268588000000001s
提取了17张图片
运行时间:2.432609000000001s
提取了18张图片
运行时间:2.571034000000001s
提取了19张图片
846345.pdf
文件名:846345.pdf, 页数: 11, 对象: 113
运行时间:0.23982499999999973s
提取了1张图片
运行时间:0.3653639999999996s
提取了2张图片
运行时间:0.48155399999999915s
提取了3张图片
运行时间:0.6341329999999985s
提取了4张图片
运行时间:0.7627989999999993s
提取了5张图片
运行时间:0.9406999999999996s
提取了6张图片
运行时间:1.0977029999999992s
提取了7张图片
运行时间:1.2553429999999999s
提取了8张图片
运行时间:1.4095369999999985s
提取了9张图片
运行时间:1.5171569999999992s
提取了10张图片
运行时间:1.72006

mupdf: cannot find object in xref (80 0 R)


RuntimeError: cannot find object in xref (80 0 R)

## 识别图片

In [25]:
from aip import AipOcr

""" 你的 APPID AK SK """
APP_ID = '18441874'
API_KEY = 'x3v8yAvk1ZhSYBfSlu93B224'
SECRET_KEY = 'Z5l8W0SahiR9j5UM7GKkTnKsKaZENKFF'

client = AipOcr(APP_ID, API_KEY, SECRET_KEY)

""" 读取图片 """
def get_file_content(filePath):
    with open(filePath, 'rb') as fp:
        return fp.read()


In [31]:
for path in os.listdir(pdf_dir):
    print(path)
    if path.split('.')[0] != '1072649': continue
    img_dir = os.path.join(pdf_dir, path.split('.')[0])
    for p in os.listdir(img_dir):
        img_fp = os.path.join(img_dir, p)
        image = get_file_content(img_fp)
        """ 调用通用文字识别, 图片参数为本地图片 """
        message = client.basicGeneral(image)
        info = [i['words'] for i in message['words_result']]
        print(info)
        with open(img_fp+'.txt', 'w', encoding='utf8') as f1:
            f1.write('\n'.join(info))
#     break

840519.pdf
846345.pdf
840519
1093310
1091869
846345
1072649.pdf
['UNITE FORCE PHARMA', '51 Xuan Dieu, P Quang An, Q. Tay Ho, Ha Noi', 'Unite', 'DELIVERY NOTE', 'Force1', 'hieu giao hang', 'PHARMACY', 'Serial: DN-190309003', 'Copy to customer(Lien cho khach hang,', 'Delivery Da', 'Name', '(Ho ten', 'Company/Address: 72 HANOI LANDMARK, KEANGNAM TOWER', 'Patient File No', 'B06907', '(So HS bent nhan', 'Date Of Birth', '1974', '0', 'Price Amount pr', 'Batch- Lot/Exp', 'Dom gidCang ten hang', 'Glam Irt', 'Thanh ten', 'so 1o Han ding', 'Ma st', 'Ten S/', '18460AEr', '6.60', '198.000', '198000', 'A0058ALPHACHYMOTRYPSINE', '994.000', '89274.20200 TABLET', '49.700', '994,000', 'A0120JAUGMENTIN IG TABLET', '123.90', '123.9', 'V0033VOLTARENE EMULGEI', 'U02121A·2020.04TUBE', '(Cong fi', '1,315.900', 'Covered amount (Cong tien giam trur', 'Payable amount (So tien thanh toan)', '1.315.900', '65.795', 'VAT', '(Thue GTGT)', 'TOng tien thanh loan', '1,381,695', 'Total', 'In words:', 'One million three 

KeyError: 'words_result'

# 手把手教学：提取PDF各种表格文本数据（附代码）
pdfplumber

https://mp.weixin.qq.com/s/mcHYTjIDnVBA58-1h8BLdA

In [2]:
# !pip install pdfplumber
!pip freeze | grep pdf

pdfminer.six==20181108
pdfplumber==0.5.13


In [1]:
import pdfplumber

In [2]:
# pdf = pdfplumber.open("sw.pdf")
pdf = pdfplumber.open("840519.pdf")

In [3]:
p0 = pdf.pages[0]


In [6]:
p0.images

[{'x0': Decimal('0'),
  'y0': Decimal('0'),
  'x1': Decimal('603.360'),
  'y1': Decimal('853.920'),
  'width': Decimal('603.360'),
  'height': Decimal('853.920'),
  'name': 'FXX1',
  'srcsize': (Decimal('1256'), Decimal('1779')),
  'bits': 8,
  'object_type': 'image',
  'page_number': 1,
  'top': Decimal('0.000'),
  'bottom': Decimal('853.920'),
  'doctop': Decimal('0.000')}]

In [7]:
type(p0.images[0])

dict

In [5]:
im = p0.to_image()
# im

WandRuntimeError: MagickReadImage returns false, but did not raise ImageMagick  exception. This can occurs when a delegate is missing, or returns EXIT_SUCCESS without generating a raster.

In [6]:
table = p0.extract_table()
table[:3]

[['行业名称', '股票代码', '股票名称', '起始日期', '结束日期'],
 ['采掘', '000552', '靖远煤电', '2008/6/2 0:00', ''],
 ['采掘', '000571', '*ST大洲', '2011/10/10 0:00', '']]

In [7]:
import pandas as pd
df = pd.DataFrame(table[1:], columns=table[0])

In [8]:
df.head()

Unnamed: 0,行业名称,股票代码,股票名称,起始日期,结束日期
0,采掘,552,靖远煤电,2008/6/2 0:00,
1,采掘,571,*ST大洲,2011/10/10 0:00,
2,采掘,629,攀钢钒钛,2015/10/31 0:00,
3,采掘,655,金岭矿业,2015/10/31 0:00,
4,采掘,723,美锦能源,2008/6/2 0:00,


In [9]:
df.shape

(42, 5)

In [10]:
df.tail()

Unnamed: 0,行业名称,股票代码,股票名称,起始日期,结束日期
37,采掘,600740,山西焦化,2008/6/2 0:00,
38,采掘,600758,红阳能源,2017/6/29 0:00,
39,采掘,600759,洲际油气,2015/8/14 0:00,
40,采掘,600777,新潮能源,2017/6/29 0:00,
41,采掘,600792,云煤能源,2015/10/16 0:00,
