# pdfplumber在github上有[英文官方文档](https://www.baidu.com/link?url=QDXeAmZUwlkKMIGNcMTE4CAj_bR5oAEU8tO9O88EfI5mWbtG-BnXiilzUyM5dCRq&wd=&eqid=f22579e5002748e20000000260573ecf)

In [2]:
# 导入pdfplumber
import pdfplumber

# 读取pdf文件，保存为pdf实例
pdf =  pdfplumber.open("data/nba4.pdf") 

# 访问第二页
first_page = pdf.pages[1]

# 自动读取表格信息，返回列表
table = first_page.extract_table()

table

[['排名', '球队', '场数', '得分', '篮板', '助攻', '抢断', '盖帽', '犯规'],
 ['1', '犹他 爵士', '32', '116', '48.4', '23.7', '6.3', '5.6', '18.8'],
 ['2', '密尔沃基 雄鹿', '33', '120.1', '48.3', '26.2', '8.2', '4.8', '18.1'],
 ['3', '纽约 尼克斯', '33', '104.7', '47.1', '20.9', '6.5', '4.8', '21'],
 ['4', '奥兰多 魔术', '33', '104.8', '46.8', '22.5', '7.1', '4.3', '16.9'],
 ['5', '新奥尔良 鹈鹕', '32', '115.5', '46.1', '25.3', '7.5', '4', '17.5'],
 ['6', '费城 76人', '33', '113.9', '45.8', '23.3', '8.5', '6.1', '20'],
 ['7', '亚特兰大 老鹰', '32', '113.7', '45.4', '24.4', '6.8', '4.8', '20'],
 ['8', '洛杉矶 湖人', '33', '111.5', '45.2', '24.7', '7.1', '6.2', '18.6'],
 ['9', '圣安东尼奥 马刺', '28', '110.7', '45.1', '25', '7.3', '5', '17'],
 ['10', '俄克拉荷马城 雷霆', '32', '106.7', '44.7', '23.2', '7.1', '4.3', '18.3'],
 ['11', '华盛顿 奇才', '30', '114.5', '44.6', '25.1', '7.4', '3.6', '22'],
 ['12', '孟菲斯 灰熊', '28', '110.8', '44.6', '27.4', '9.6', '4.4', '18.5'],
 ['13', '波特兰 开拓者', '31', '114.8', '44.5', '19.9', '7.2', '5.1', '19.7'],
 ['14', '芝加哥 公牛', '31', '1

第二步：整理成dataframe格式，保存为excel

In [6]:
import pandas as pd

# 将列表转为df
table_df = pd.DataFrame(table[1:],columns=table[0])

# 保存excel
table_df.to_excel('data/test.xlsx')

table_df

Unnamed: 0,排名,球队,场数,得分,篮板,助攻,抢断,盖帽,犯规
0,1,犹他 爵士,32,116.0,48.4,23.7,6.3,5.6,18.8
1,2,密尔沃基 雄鹿,33,120.1,48.3,26.2,8.2,4.8,18.1
2,3,纽约 尼克斯,33,104.7,47.1,20.9,6.5,4.8,21.0
3,4,奥兰多 魔术,33,104.8,46.8,22.5,7.1,4.3,16.9
4,5,新奥尔良 鹈鹕,32,115.5,46.1,25.3,7.5,4.0,17.5
5,6,费城 76人,33,113.9,45.8,23.3,8.5,6.1,20.0
6,7,亚特兰大 老鹰,32,113.7,45.4,24.4,6.8,4.8,20.0
7,8,洛杉矶 湖人,33,111.5,45.2,24.7,7.1,6.2,18.6
8,9,圣安东尼奥 马刺,28,110.7,45.1,25.0,7.3,5.0,17.0
9,10,俄克拉荷马城 雷霆,32,106.7,44.7,23.2,7.1,4.3,18.3


## pdfplumber简介
前面已经介绍过pdfplumber的用途，也用一个小案例展示了如何提取表格，我觉得对于pdfplumber只需要了解三点就可以。
- 1、它是一个纯python第三方库，适合python 3.x版本
- 2、它用来查看pdf各类信息，能有效提取文本、表格
- 3、它不支持修改或生成pdf，也不支持对pdf扫描件的处理

Github地址https://github.com/jsvine/pdfplumber

## pdfplumber简单使用
pdfplumber中有两个基础类，PDF和Page。看字面意思能猜出，前者是处理整个文档，后者是处理页面。

**「pdfplumber.PDF类」**

|属性|描述|
|----|----|
|.metadata|获取pdf基础信息，返回字典|
|.pages|一个包含pdfplumber.Page实例的列表，每一个实例代表pdf每一页的信息。|

**「pdfplumber.Page类」**

这是pdfplumber的核心功能，对pdf的大部分操作都是基于这个类，包括提取文本、表格、尺寸等。

这里暂不一一列举它的属性和方法。

通过一个简单的案例，就可以明白它们的作用。示例pdf文档，共两页：



In [7]:
# 1. 读取pdf
import pdfplumber

# 读取pdf文件，返回pdfplumber.PDF类的实例
pdf = pdfplumber.open("data/paper.pdf")

In [8]:
# 2. 获取该pdf文档的信息
pdf.metadata

{'CreationDate': "D:20201216102222+08'00'",
 'Creator': 'TeX',
 'ModDate': "D:20210106153849-08'00'",
 'PTEX.Fullbanner': 'This is pdfTeX, Version 3.14159265-2.6-1.40.21 (TeX Live 2020/W32TeX) kpathsea version 6.3.2',
 'Producer': 'pdfTeX-1.40.21',
 'Subject': 'AAAI-21',
 'TemplateVersion': '2021.1',
 'Title': 'PRELIMINARY VERSION DO NOT CITE',
 'Trapped': 'False'}

这些是pdf的基础信息，包括作者、来源、日期等。

In [10]:
# 3. 总页数
# 通过pdfplumber.PDF类的metadata属性获取pdf页数
len(pdf.pages)

9

In [13]:
# 4. 读取第一页的页宽、页高等信息
# 第一页pdfplumber.Page实例
first_page = pdf.pages[0]

# 查看页码
print('页码：',first_page.page_number)

# 查看页宽
print('页宽：',first_page.width)

# 查看页高
print('页高：',first_page.height)

页码： 1
页宽： 612
页高： 792


In [14]:
# 5. 读取第一页的文本
# 读取文本
text = first_page.extract_text()
print(text)

PRELIMINARY VERSION: DO NOT CITE 
The AAAI Digital Library will contain the published 
version some time after the conference
Detecting Adversarial Examples from Sensitivity Inconsistency of
Spatial-Transform Domain
JinyuTian,1 JiantaoZhou,1,* YuanmanLi,2 JiaDuan1
1StateKeyLaboratoryofInternetofThingsforSmartCity,
DepartmentofComputerandInformationScience,UniversityofMacau
2GuangdongKeyLaboratoryofIntelligentInformationProcessing,
CollegeofElectronicsandInformationEngineering,ShenzhenUniversity
{yb77405,jtzhou}@um.edu.mo,yuanmanli@szu.edu.cn,xuelandj@gmail.com
Abstract Thoughmanyrobustclassiﬁcationstrategieshavebeenpro-
posed,mostofthemarestillnotpowerfulenoughtodefeat
Deep neural networks (DNNs) have been shown to be vul-
the secondary attack or AEs generated by some advanced
nerableagainstadversarialexamples(AEs),whicharemali-
attacks e.g., C&W (Carlini and Wagner 2017). In fact, in
ciously designed to cause dramatic model output errors. In
(Tsiprasetal.2019),itwaspointedoutthatthetr

In [15]:
# 6.读取第二页的表格
import pandas as pd

# 第二页pdfplumber.Page实例
first_page = pdf.pages[1]

# 自动读取表格信息，返回列表
table = first_page.extract_tables()

# 将列表转为df
table_df = pd.DataFrame(table_2[1:],columns=table_2[0])

table_df

NameError: name 'table_2' is not defined

pdfplumber提取表格有很多的细节需要处理，这里给到的范例表格线框比较规范，所以能很简单的提取，但对于线框不完全（包含无线框）的表格，其效果就差了不少。

在实际项目所需处理的pdf文档中，线框完全及不完全的表格都比较多，为了能够理解pdfplumber实现表格抽取的原理和方法，我们需要去细究相关参数的设置。

正如案例所示，pdfplumber.Page对象的`.extract_table()`方法可以提取表格，返回从页面上最大的表中提取的文本，以列表列表的形式显示，结构为`row -> cell`。

**「表格抽取参数设置」**
    默认情况下，`extract_table`使用页面的垂直和水平线（或矩形边缘）作为单元格分隔符。该方法可以通过table_settings参数进行高度自定义。可能的设置及其默认值：
    
 ```python
{
    "vertical_strategy": "lines", 
    "horizontal_strategy": "lines",
    "explicit_vertical_lines": [],
    "explicit_horizontal_lines": [],
    "snap_tolerance": 3,
    "join_tolerance": 3,
    "edge_min_length": 3,
    "min_words_vertical": 3,
    "min_words_horizontal": 1,
    "keep_blank_chars": False,
    "text_tolerance": 3,
    "text_x_tolerance": None,
    "text_y_tolerance": None,
    "intersection_tolerance": 3,
    "intersection_x_tolerance": None,
    "intersection_y_tolerance": None,
}
 ```

![image.png](attachment:image.png)

pdfplumber支持对图表进行可视化调试，能输出图像，显示如何提取表。